基因芯片数据荟萃—胶质瘤预后分析.doc

上传人:11****ws 文档编号:3033379 上传时间:2019-05-18 格式:DOC 页数:27 大小:327KB
下载 相关 举报
基因芯片数据荟萃—胶质瘤预后分析.doc_第1页
第1页 / 共27页
基因芯片数据荟萃—胶质瘤预后分析.doc_第2页
第2页 / 共27页
基因芯片数据荟萃—胶质瘤预后分析.doc_第3页
第3页 / 共27页
基因芯片数据荟萃—胶质瘤预后分析.doc_第4页
第4页 / 共27页
基因芯片数据荟萃—胶质瘤预后分析.doc_第5页
第5页 / 共27页
点击查看更多>>
资源描述

1、 单位代码: 10226 学号: 2009156007 本科毕业论文 题目 基因芯片数据荟萃 胶质瘤预后分析 所 在 学 院 生物信息科学与技术学院 专业 生物技术 学 生 姓 名 秦远 指 导 教 师 张绍军 二 一四年六月 哈尔滨医科大学本科毕业论文 哈尔滨医科大学本科毕业论文声明 本人郑重声明: 所呈交的毕业论文,是本人在指导教师的指导下进行研究工作所取得的成果,实验数 据与结果真实可靠。除文中已经注明引用的内容外,本文不含任何其他个人或集体已经发表或撰写过的研究成果。对本文研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的法律结果由本人承担。 论文作者签名: 日 期: 年

2、 月 日 哈尔滨医科大学本科毕业论文版权使用授权 说明 本人完全了解学校关于收集、保存和使用本科毕业论文的规定,即: 1、按照学校要求提交本科毕业论文的印刷本和电子版本; 2、学校有权保存本科毕业论文论文的印刷本和电子版 ,可以将本论文的全部或部分内容编入有关数据库进行检索,并提供目录检索、借阅及查阅服务; 3、学校可以采用影印、缩印、数字化或其它复制手段保存论文; 4、本科毕业论文研究成果的责任作者或通讯作者为本人的指导教师,作者署名单位为哈尔滨医科大学; 5、保密的论文在解密后遵守此规定。 论文作者签名: 指导教师签名: 日 期: 年 月 哈尔滨医科大学本科毕业论文 目 录 中文摘要 .

3、1 Abstract . 2 1、文献综述 . 4 1.1 胶质瘤 . 4 1.2 相关数据库简介 . 4 1.2.1 GEO 数据库 . 4 1.2.2 KEGG 数据库 . 5 1.3 临床预后简介 . 5 1.3.1 生存分析简介 . 6 1.4 目前国内外研究现状 . 6 1.5 课题研究目的及意义 . 6 2、材料与方法 . 8 2.1 实验数据 . 8 2.1.1 获得胶 质瘤芯片表达数据 . 8 2.1.2 胶质瘤通路数据 . 8 2.2 实验方法 . 8 2.2.1 技术路线 . 8 2.2.2 数据预处理 . 9 2.2.3 多平台基因芯片数据整合 . 9 2.2.4 鉴定风

4、险通路 . 10 2.2.5 生存分析 . 10 3、结 果 . 12 3.1 胶质瘤基因芯片整合数据 . 12 3.2 胶质瘤的 KEGG 通路图 . 12 3.3 meta 分析 . 14 3.4 生存分析 . 14 4、讨 论 . 17 5、结 论 . 18 6、致 谢 . 19 7、参考文献 . 20 哈尔滨医科大学本科毕业论文 1 中文摘要 大量的基因组数据特别是微阵列数据都可以通过各种网络资源获得,例如从the Gene Expression Omnibus (GEO)中获得。现存的这些基因表达数据库的数据库接口,表达数据存储方式和临床 meta数据注释等方面在格式上都存在不相容的

5、问题,而且从不同的数据库得到的数据的注释也会有不一致的情况。这些缺陷导致寻找疾病预后 基因 时存在很大的困难。 原发性脑肿瘤中预后 效果最差的就是脑胶质瘤 ,其预后与生物学特征 、生长 发生部位、手术方式等医疗手段 有关 ,因为 胶质瘤 具有浸 润生长的特征 ,对神经组织破坏较大 ,手术难以完全切除 ,绝大多数胶质瘤在手术和放化疗后复发概率仍较大。胶质瘤分为 4个等级: I、 II、 III、 IV。 低等级的胶质瘤是高度分化的,患者也往往具有比较良好的预后效果;高等级的胶质瘤则预后效果较差。 基于此, 利用 经过整合了 的 胶质瘤的基因芯片表达数据作 meta 分析,这些数据都以统一的标准化

6、来处理,并被映射到了 HGNC 的 gene symbol 上;继而利用 R 软件来进行 meta 分析;最后利用 cox 比例风险回归模型来寻找疾病预后的biomarker。 本 研究 的一个重要的应用就 是 利用多个独立的研究来检验之前作为假设提出的胶质瘤的预后基因 ,利用 meta 分析能对同一 个课题的多项研究结果的一致性进行归纳概括 ,对同一课题的多项研究结果作系统性评价和总结, meta 分析能够 提高统计效能和效应值估计的精确度。 关键词: 生存分析 ;生物标记; meta 分析;预后;胶质瘤 基因芯片数据荟萃 胶质瘤预后分析 2 Meta-analysis and surviv

7、al analysis of the gene expression of glioma Abstract A wealth of genomic data, in particular microarray data, is publicly available through diverse online resources. Major database of gene chip expression data, e.g. Array Express and the Gene Expression Omnibus (GEO).However, inconsistent formattin

8、g among database interfaces, expression data storage and clinical meta-data annotations present formidable obstacles to making efficient use of these resources. The database provides machine-rather than manually annotated data, resulting in reduced consistency of annotation across studies. These def

9、ects may cause great problems when we are searching for the disease Biomarker. Glioma is a primary brain tumor which has the worst prognosis of tumor, its prognosis is related with biological characteristics, growth related parts, operation mode and many other treatment measures, because of glioma w

10、ith infiltrative growth characteristics, damaging the nervous system , difficult to complete excision operation, the vast majority of glioma after operation and chemotherapy will probably recur . Glioma is divided into 4 grades: I, II, III, IV. Low grade gliomas are highly differentiated, sufferers

11、often have a relatively well prognosis; high grade gliomas usually have poor prognosis. Based on that, I utilize 7 sets of data of the expression of the glioma gene chip to do meta-analysis. And gene expression data were collected from public databases and author websites, processed in a consistent

12、manner and mapped uniformly to official Human Gene Nomenclature Committee (HGNC) gene symbols. And then we execute the meta analysis using R software. Finally, using Cox proportional hazards regression model to the prognosis of the disease biomarker. An important application of my research is the us

13、e of multiple independent study to test the hypothesis before as glioma prognosis of biomarker, analysis of consistency can result a number of studies on the same topic was evaluated using meta, the results 哈尔滨医科大学本科毕业论文 3 of several studies on the same topic for system evaluation and summary, meta

14、analysis statistical efficiency and effect value estimation accuracy. Key words: survival analysis; biomarker; meta-analysis; prognosis; glioma 基因芯片数据荟萃 胶质瘤预后分析 4 1、文献综述 1.1 胶质瘤 胶质瘤( glioma) 是发生 发展于神经外胚层的肿瘤,故又称神经上皮肿瘤。大多数肿瘤起源于不同类型的神经胶质,但按照组织发生学来源及生物学特性的相似 ,对发生于神经外胚 层的各种肿瘤,一般都称为神 经胶质瘤。病因多是因为惊吓或大怒,或衰哭烦

15、闷,使气血运行受阻,抵抗力下降 ,病邪 借此乘虚而入,发为癌瘤。症状主要有两方面的表现:一是颅内压增高以及一些其它 症状,如 视力减退、复视、 头痛、呕吐、癫痫发作和精神症状等。另一是脑组织受肿瘤的压迫、浸润、破坏所产生的局部症状,造成神经功能缺失。 1.2 相关数据库简介 1.2.1 GEO 数据库 GEO ( Gene Expression Omnibus)数据库 NCBI( National Center for Biotechnology Information) 旗下的旨在支持基因表达数据公共使用和散布来自 microarray,杂交膜( hybridization membrane

16、 ),高密度 的 寡核苷酸 微阵列( HAD) 以及 SAGE 等很多其它类型的基因表达数据都被纳入,登记和存档。GEO 数据库是 高通量 的基因表达数据库, 数据库 里面 包含高通量实验数据的各种分类,有以单 ,双通道微阵列为基础, 对 mRNA 丰度的 进行 测定;蛋白质分子和基因组 DNA 的实验数据,迄今为止, GEO 数据库包括 的数据已经涵盖了 10000 个来自杂交实验以及 30 多 种不同生物 个 体的 SAGE 库。 GEO 数据库包含 四个基本实体:提交者( submitter),平台( platform),系列( series)和样本( sample),这四个实体都可以保

17、存到独立的相关数据库哈尔滨医科大学本科毕业论文 5 中,获得号前三个字母分别为 “GPL”GSM”GSE”。这三个都是靠提交者维护的; 另外 GEO 数据库尚 有一个 作为 辅助 的数据分析工具,他能够把提交者所提交的样本综合 整理到 GEO 数据集组( GEO DataSets,缩写为 GDS), GDS数据是由 GEO 自身 维护的, GDS 数据比 GSE 数据更 标准,并且数据具有生物学意义且在统计学上能够相互 比较。 1.2.2 KEGG 数据库 KEGG( Kyoto Encyclopedia of Genes and Genomes) 是一个人工 收集的关于基因组( genome

18、s)、生物通路( biological pathways)、疾病( diseases)、药物( drugs)和化学物质( chemical substance)的数据库。 KEGG 一般用于生物信息学研究和教育用途。 KEGG 项目启动于 2005 年,当时在人类基因组计划中工作的日本京都大学化工研究所( Institute for Chemical Research, Kyoto University)的 Minoru Kanehisa 教授意识到现在需要一种能够帮助人类解释基因组序列数据的计算机资源,于是他就开始和设计了 KEGG 通路数据库,当时的 KEGG 还只能够为细胞和生物体的代谢

19、绘制包含分子互作和分子之间的化学反应的通路图,设计的初衷是将一个通路内的基因和基因产物(主要是蛋白质)连接起来。但是却直接产生了一种叫做 KEGG pathway mapping 的分析,这类分析通过对比 基因的序列与 KEGG PATHWAY 数据库做比较来注释该段序列的功用 。用 KEGG 数据库的开发者来说“ KEGG 是计算机化的生物系统”,它能将图和块一起来构成一个生物系统。具体的说遗传学上的块是基因和蛋白质, 化学的块是小分子,至于图则是这些块之间的互作形成的网络。这种观念直到现在也在影响 KEGG 所有的数据库:系统、基因组、化学和健康信息。 1.3 临床预后简介 预后是指凭据

20、经验预测 出 疾病的可能病程和 最终结局。它既包含 判断疾病的某种特定结果 ( 例 如病愈 ,复发以及死亡等),也包含了时间因素(例如 预测特基因芯片数据荟萃 胶质瘤预后分析 6 定时间内的 出现 某种结局的可能性 的大小等 )。 1.3.1 生存分析简介 生存分析是将事 件的结果以及出现该结果所要经历的时间联合 起来分析的一种统计分析方法。由于生存分析方法可以分析包括截尾数据的事件,因此更充分的利用了信息。 Cox 比例风险 回归分析是生存分析 中 的一种半参数分析方法,同时也是一种 多因素分析方法, 它 可以同时分析多个 独立 因素对生存时间的影响。 1.4 目前国内外研究现状 利用 常规

21、 的 治疗 方法来治疗恶性胶质瘤的 效果还比较差 ,而近几年在胶质瘤的基因治疗方面研究获得了 一定进展 ,当今 胶质瘤基因治疗的分子手段主要包含调节 细胞周期 法 1、自杀基因疗法 2、免疫基因疗法、抗血管生成 的 治疗 法 、 PKR途径等 ,基因转运体系包含 逆转录病毒 3、 腺病毒、 腺相关病毒等病毒载体 ,对病毒的改造则主要是通过增加载体的靶向性和 可控性 4,此外还有 一种新型载体是溶瘤病毒和非病毒载体 5,而 目前治疗效果最好的是结合 基因治 疗与传统化疗、放疗 。 随着基因组测序数据的快速增长,产生了大量的生物数据,同时这些数据也隐藏了很多的生物学知识,利用生物信息学可以对这些数

22、据进行分析,处理等,可以挖开这些生物数据的内涵,进而指导临床对胶质瘤的治疗,预后。 1.5 课题研究目的及意义 随着大量的高通量表达数据的迅猛发展,出现了越来越多的基因表 达数据库,我们应该充分利用这些数据来挖掘出隐藏在里面的信息。我查阅了大量的文献并在 GEO 和 ArrayExpress 上下载了大量的数据,剔除不符合研究条件的数据,共保留了 7 套胶质瘤的芯片数据 6。通过利用 meta 分析来对这些独哈尔滨医科大学本科毕业论文 7 立研究的结果进行汇总综合,并把基 因芯片表达数据同生物通路结合起来,来查找胶质瘤的风险通路,并使用 单变量的 Cox 比例风险回归分析 根据 胶质瘤病人的生存信息来寻找胶质瘤的预后基因,进而提高预后 准确率,可以为临床上提供一个指导意见 ,辅助胶质瘤临床诊断与治疗。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 重点行业资料库 > 医药卫生

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。