1、目录1. 引言 .31.1 研究背景 .31.1.1 胚胎干细胞简介 .31.1.2 组蛋白修饰与 ES 细胞的多能性 .31.1.3 转录因子的调控 .41.1.4 胚胎干细胞分化的调控因子 .51.1.5 本论文的研究目的及其意义 .81.1.6 相关研究方法概述 .82. 实验过程 .92.1 实验数据的获取 .92.1.1 组蛋白修饰数据的获取 .92.1.2 转录因子位点数据的获取 .112.1.3 已分化的胚胎干细胞基因数据集 .92.1.4 基因及其靶位点数据集 .112.2 实验方法 .142.2.1 SVM 概述 .142.2.2 GO 分析 .152.2.2 ASPL 分析
2、 .152.3 实验步骤 .162.3.1 利用 Chisq 检验筛选有用特征 .172.3.2 通过 SVM 模型进行数据分类和筛选 .193. 结果与分析 .213.1 结果矩阵的特征分析 .213.2 Sox2、Oct4、Nanog 靶基因在小鼠和人体内的比较 .223.3 Sox2、Oct4、Nanog 靶基因的功能注释分析 .233.4 Sox2、Oct4、Nanog 的 KEGG 信号通路的比较分析 .274. 参考文献 .295. 附录 .33附录一: Fisher 检验的 R 筛选 .43附录二: SVM 的 Matlab 程序 .48附录三: GO 分析程序 .43附录四:
3、ASPL 分析程序 .436. 致谢 .502全基因组范围内三个核心干性因子靶基因的预测分析摘 要:【目的】研究应用计算机技术对人类胚胎干细胞相关基因进行筛选、优化。【方法】通过收集已分化的胚胎干细胞基因序列、基因组序列、转录因子结合位点序列、组蛋白修饰序列4种数据集合,利用阳性数据集、通过SVM(支持向量机)模型,把整个基因组中组蛋白修饰数据和转录因子结合位点(TFBS)作为特征(Feature),三者的结合信息作为目标(Target)进行机器学习实验,并对靶基因做功能注释分析【结果】通过机器学习的方式,我们分别为Sox2、Oct4、Nanog找到了100、1013、110个靶基因,并且So
4、x2、Nanog靶基因的功能和当前研究所发现的功能基本吻合,只不过由于Oct4初始阳性数据量过少,靶基因寻找效果不太理想,还需要以后更多的实验提供充足的ChipSeq数据【结论】本论文的研究有力的说明了机器学习在生物信息领域不可替代的重要性,更为重要的是本论文肯定了当前一些对三个核心干性因子作用的预测研究,对该领域的发展起到了很好的促进作用。该方法具有较高的准确性,在保证对训练集合90以上的识别率的情况下。对测试集合的识别率达到80以上。关键词:转录因子;组蛋白修饰;SVM;靶基因31. 引言1.1 研究背景1.1.1 胚胎干细胞简介胚胎干细胞(Embryonic stem cells,ES细
5、胞)是从附置前早期胚胎内细胞团(ICM)或附置后胚胎原始生殖细胞(Primordial germ cells,PGCs)隆出来的一种具无限增殖能力、保持正常的染色体核型和全向分化能力的干细胞 1,2。ES细胞在体内、外正常分化的过程中, 能产生除滋养以的外胚层和原始内胚层外的内、中、外3个胚层的所有细胞类型。相比较其他多能成体干细胞而言, ES细胞是全能性细胞。胚泡注射后, ES细胞的衍生细胞分布到嵌合体动物的所有组织系统中, 包括生殖系。ES细胞衍生的生殖细胞能进行遗传物质的传递, 这一特性已被广泛应用于基因功能的研究。ES细胞进行对称性细胞分裂, 产生2个相同的多潜能性子代细胞, 这一特性
6、称为ES细胞的自我复制或自我更新(self-renewal). ES细胞自我复制的同时伴随着细胞分化的抑制和多向发育潜能的维持, 这是ES细胞多潜能性的基础 3。在体外,可以对ES细胞进行遗传操作选择,如导人异源基因、报告基因或标志基因,诱导某个基因突变,基因打靶或导人额外的原有基因使之过度表达(增加功能)等 4。自1998年人类胚胎干细胞(human embryonic stem cell,hESC)建系以来 5-6,hESC迅速成为生命科学研究的热点,针对ESC分化相关的基因的研究成为核心问题之一。Es细胞在生命科学的各个领域都有着重要而深远的影响,尤其在克隆动物、生产转基因动物、细胞组织
7、器官的修复和移植、细胞治疗、组织工程、发育生物学、药物的发现、筛选、动物和人类疾病模型上有着极其诱人的应用前景。科学家们已经开始对胚胎干细胞进行基因改造,将特殊改变的基因转导至胚胎干细胞中,体外选择后将胚胎干细胞导入机体,使胚胎干细胞中的遗传信息传达给子代 7-9,这意味着将可以有针对性地改变人胚胎干细胞的遗传表型,可能有助于克服出生缺陷,纠正某些遗传性疾病,而且还可将胚胎干细胞中某个基因敲除或将外来的某个基因导入,用于研究特定基因对胚胎发育、药物代谢和肿瘤形成的影响等。如何应用计算机的方法来预测潜在的ES细胞分化相关基因,发现其中包含的信息,这对于功能基因的识别、基因工程等方面都具有非常重要
8、的价值。41.1.2 组蛋白修饰与 ES 细胞的多能性表现遗传调控对于 ES 细胞的多能性维持以及无限增殖与自我更新具有重要意义,细胞通过染色质的结构修饰和改变对表观遗传进行调控,而染色质结构调控可以通过组蛋白的修饰来实现 10。组蛋白有多种,大多数是由一球状区和突出于核小体外的组蛋白尾组成的碱性氨基酸组成。组蛋白 H2A、H2B、H3 和H4 各两个分子形成一个八聚体,真核生物中的 DNA 缠绕于此八聚体上形成核小体。组蛋白 H1 结合于核小体之间的连接 DNA 上,使核小体一个挨一个,彼此靠拢。5 种组蛋白(HI、H3、H2A、H2B 和 H4)中,除 H1 的 N 端富含疏水氨基酸,C端
9、富含碱性氨基酸之外,其余 4 种都是 N 端富含碱性氨基酸(如精氨酸、赖氨酸),C 端富含疏水氨基酸(如缬氨酸、异亮氨酸)。在组蛋白中带有折叠基序(motif)的 C 端结构域与组蛋白分子间发生相互作用,并与 DNA 的缠绕有关。而 N 端可同其他调节蛋白和 DNA 作用,且富含赖氨酸,具有高度精细的可变区。组蛋白N 端尾部的 1538 个氨基酸残基是翻译后修饰的主要位点,调节 DNA 的生物学功能 11。组蛋白的翻译后修饰不仅与染色体的重塑和功能状态紧密相关,而且在决定细胞命运、细胞生长以及致癌作用的过程中发挥着重要的作用 12。组蛋白翻译后修饰包括甲基化与去甲基化、磷酸化与去磷酸化、乙酰化
10、与去乙酰化、泛素化与去泛素化等 13。组蛋白甲基化表明染色质的失活而乙酰化则表明染色质的活化。ES 细胞中的染色质常表现为基因转录活化的常染色质状态,乙酰化水平高;而与之相反,分化细胞,谱系不同乙酰化水平具有差异,但都表现出形成无转录活性的异染色质、乙酰化水平降低、甲基化水平升高等特点 14。说明细胞的分化过程伴随着染色质状态的变化,细胞分化潜能的限制性标志是细胞基因组可塑性的降低,细胞特殊分化系谱的形成与新的可遗传基因表达程序的建立和染色质的重新定制有重要关系。通过组蛋白修饰来改变染色质的活性影响和多能性相关的基因的表达从而影响 ES 细胞维持多能性是 ES 细胞保持多能性的关键机制之一。组
11、蛋白 H3 是组蛋白的常见修饰位点,利用 ChIP 技术对 ES 细胞和多种不同的分化细胞进行分析,显示几乎所有具活性的基因其启动子都和多个组蛋白的修饰有关,比如:H3K4 me 和 H3K4Ac,而 H3K36me3 或者 H3K9me3 与失活的基因和其启动子相联系15。另外 H3K27me 作为一个染色质抑制的标记,经常和多种基因的启动子相联系并经常和染色质活性标记 H3K4me 一起出现,他们组成所谓的“双价体结构域 使基因保持处于“转录准备”状态。“双价体”模型典型地存在于发育调控基5因中,在 ES 细胞等未分化状态的细胞中则处于沉默状态,分化过程中被激活 16。最近的实验证明不仅在
12、 ES 细胞发育调控基因的启动子中存在“双价体”标记,也存在于分化的细胞中。启动子、增强子等处的组蛋白赖氨酸乙酰化使染色质激活而甲基化却会使染色质失活。通常 H3K9me3 和 H4K20me3 标记沉默的印迹基因、沉默的重复基因、非表达的假基因和着丝粒以及端粒等,H3K27me3 标记组织特异性和发育调控的沉默基因 17。在分化过程中双价体染色质的修饰平衡将发生改变,H3K4me 修饰和 H3K27me3 修饰则大量沉默基因,而激活基因则很少被 H3K4me 修饰,这说明在分化过程中基因的失活和“双价体”染色质的修饰平衡有关 18。Es 细胞通过调控“双价体”的平衡实现对基因表达的调控,进而
13、调控其多能性和自我更新。此外,染色质的修饰还和转录因子表达激活与失活以及转录因子的结合相关。分化过程中,双价体允许重要的转录因子基因快速激活,表达分化调控相关的转录因子进而调节分化过程。基因组中的双价体结构域经常富含多能性相关转录因子的结合位点,比如,Oct4、Sox2、Nanog 等重要的多能性相关转录因子。1.1.3 转录因子的调控从病毒到人类,所有活的生物体都依靠转录机制表达基因组的特定部分,来应对环境或发育信号的改变,以此执行生命周期中的关键生物功能。因此,转录构成了一个调节生物过程的关键步骤,而且转录因子被认为是决定细胞命运的主开关。近年来,干细胞生物学的迅速发展,主要得益于若干转录
14、因子功能的阐明,转录因子是干细胞多能性的主要调节者。转录因子Oct4、Sox2、Nanog、Klf4 和 Myc 已被证明具有将成体细胞重编程为具有多能性的细胞的神奇的力量转录因子往往与辅助因子和修饰分子采取一致行动来为响应发育或环境信号来打开或关闭下游基因的表达 19。因此,大量的转录因子已被证明在发育过程中主要通过控制细胞类型特异性基因的表达,从而指定细胞的命运。ES 细胞是研究细胞分化和相关转录因子生化分析的良好模型系统。1981 年,埃文斯和考夫曼,以及马丁第一次从小鼠囊胚的内细胞团中分离出胚胎干细胞。他们设计出一些方法让这种细胞能无限增殖,使这些细胞具有多能性,因为它们可以在重新引入
15、小鼠囊胚时形成嵌合体,并有助于形成包括生殖腺在内的所有组织。这项技术突破带来了利用同源重组的 ES 细胞产生基因敲除6动物的基因打靶技术。1998 年,homson 等成功地分离出人类胚胎干细胞,这是一个具有划时代意义的突破,意味着干细胞技术可能最终造福于人类疾病的治疗。干细胞研究在过去十年内已经开始渗透到生物学和医学的许多学科中,这一趋势可能会继续,并冠以干细胞研究生物医学研究中心的称号。首先,包括胚胎干细胞和成体干细胞在内的干细胞,是再生医学的主角。再生科学被视为继药物治疗和外科手术后的第三代治疗方法。骨髓移植,通过更换病变的或有缺陷的造血干细胞,已经成功地治疗了多种疾病。第二,干细胞,尤
16、其是胚胎干细胞,是基础研究领域如信号转导、发育和表观遗传学的理想模型。最后,干细胞可以成为药物筛选和安全评估的有用工具。尽管干细胞研究为我们带来了很多惊喜,但我们仍处于探索干细胞的早期阶段,包括干细胞在发育、疾病和再生等方面的分子水平机制我们仍然还不清楚。最新的关于调控胚胎干细胞多能性的分子机制的进展提供了一些关于转录因子如 Oct-4 和 Nanog 在维持胚胎干细胞的未分化状态方面的知识。1.1.4 胚胎干细胞分化的调控因子胚胎干细胞分化的调控是一个极其复杂的过程,是由多个因素组成的一个庞大的维持胚胎干细胞自我更新能力的调控网络,其中特异分子和各种转录因子的最终表达量是决定胚胎干细胞是否分
17、化的关键因素。当各种因子分泌量达到相互平衡状态时,胚胎干细胞维持自我更新,但是如果其中一个或几个因子的表达量发生改变时,就会促使胚胎干细胞向某一特定方向分化 20。目前研究主要集中在八聚体结合蛋白4、Nanog、SOX基因、白血病抑制因子等几条既平行又相互交错的通路所决定胚胎干细胞的自我更新。然而,近年来对一些多能性因子如Oct4、Sox2和Nanog的下游靶基因的研究表明,其可能正调控维持细胞全能、多能性状态所需基因的转录,或者可能负调控与体细胞分化有关基因的转录 21。因此对多能性因子如Oct4调控下游靶基因的研究将有助于对其在分化发育中所起作用的进一步了解。除此以外,我们将转录因子的范围
18、扩大到人类基因组的所有转录因子。1.1.5 本论文的研究目的及其意义现阶段关于早期胚胎发育的分子机制的研究日趋白热化,调控早期胚胎干细胞分化的基因更是研究者重点关注的课题。而这些基因中的三个代表基因:OCT4、SOX2 和 NANOG 在 ESCs 的多潜能性和自我更新能力方面发挥了重要作用。7然而,已研究清楚的人类核心多潜能性因子(TFs)数量仍然十分有限。虽然通过统计我们知道核心多潜能性因子的总数达到了 5000 个,但这个数值仍小于人类核心多潜能性因子的理论值。本实验的目的在于筛选、优化出干细胞相关基因,发现其中包含的信息,其意义不仅在于此准确预测模型可应用到其他方面,还在于本实验为其他
19、的相关生物领域研究提供了经可靠性打分的转录因子的靶基因,便于后续研究的进行。这对于功能基因的识别、基因工程等方面都具有非常重要的价值。1.1.6 相关研究方法概述本文研究了一种应用计算机技术对人类胚胎干细胞相关基因进行预测的方法。根据目的,我们把以转录起始位点(TSS)为中心,上下游-1000,+1000区间的范围作为转录因子靶基因的定义范围,以此为一个特征,组蛋白修饰是另外一个重要的特征。在不能确定阴性集的情况下,我们采用支持向量机(SVM)进行预测,此预测方法的特点是在阴性集缺失的情况下仍能够较准确地进行预测。其次分析了这些预测靶基因的功能相似性和接近度中心性。2. 实验过程2.1 实验数
20、据的获取基于计算机的胚胎干细胞相关基因识别方法使用了 3 种数据集:已分化的胚胎干细胞基因数据集、基因及其靶位点数据集、转录因子结合位点数据集、组蛋白修饰数据集。2.1.1 组蛋白修饰数据的获取数据集中的数据抽取自 NCBI 中 GEO 板块 H9 的组蛋白数据样本,网址为http:/www.ncbi.nlm.nih.gov/geo/,得到 Bed 格式文件;也可以点击 Web Link 链接直接进入数据地图,在此地图中筛选 H9 的组蛋白修饰数据,以 Bed 文件的格式下载。82.1.2 TFBS 数据的获取打开 UCSC,点击 TableBrowser,按图 1 设置,点击下载(Group
21、:regulation; track:TFBS Conserved)图 1.转录因子结合位点数据集搜集过程2.1.3 已分化的胚胎干细胞基因数据集打开 http:/ 网址,点击标题栏Browse,按图 2 设置,设置好筛选条件后点击 mRNA and miRNA 搜索目录的Browse,将出现图 3 页面,将页面内容存储到 Excel 中即可。9图 2.胚胎干细胞基因数据集收集过程图 3.胚胎干细胞基因数据集2.1.4 基因及其靶位点数据集打开 UCSC,点击 TableBrowser,按图 4 设置,点击下载(Group:Genes and Gene Predictions;track:UC
22、SC Genes)10图 4.基因及其靶位点数据集搜集过程2.2 实验方法2.2.1 SVM 概述由于本试验的阴性集确实,经过大量文献的查阅,基于 SVM 模型能够很好的解决生物数据中缺少阴性集而难以分类的问题,所以本论文采用基于 M-C的 SVM 机器学习方法作为分类模型。利用组蛋白修饰数据和 TFBS 数据对目标靶基因进行分类。由于该方法需要有初始的阳性数据集和特征向量组成的特征矩阵,它的数据处理流程图如下:图5 SVM模型的数据流程图首先,靶基因集合被称为 POS。余下的所有基因除掉靶基因后构成 MIX 集合。其次,NEG 集合是从 MIX 集合中随机抽取的,和 POS 集合元素数目相当的集合,以上为映射阶段。在收敛阶段,标签法运用了 SVM 核心,并且下载程序包LIBSVM(3.20, http:/www.csie.tu.edu. w/cjlin/libsvm/)。在每一个循环开始前,我们从 POS 集合和 NEG 集合各抽取 10%作为检验集合,从而检验模型的准确性。通过 SVM 模型可以直接对全部的 MIX 集合进行分类。然后被判断为阳性的元素标签加 1,判断为阴性则标签没有变化。在一个实验中这个过程被循