1、9毕 业 论 文代谢综合征风险、趋势预测和干预模型的构建2摘 要代谢综合征现已成为危害我国民众健康的严重公共卫生问题,患者往往表现出代谢指标的异常,如中心性肥胖、血压及血糖水平增高、血脂异常等。随着代谢综合征发病率的不断升高,对我国公众生命健康的危害不断加大。如果能够对代谢综合征的发生和发展趋势进行预测,将会对代谢综合征的预防和治疗起到极为关键的作用,从而有效降低代谢综合征的发病率。本文通过将生物信息学理论和现代数据科学技术相结合的方法来建立数学模型,进而根据研究对象的遗传信息来预测其罹患代谢综合征的可能性。主要内容分为以下三个部分:第一节对从中国知网以及 ECBI 等数据库中收集到的代谢综合
2、征的相关信息进行了梳理和整合,详细介绍了代谢综合征预测问题的研究背景和重要意义。第二节对已有数据进行了解读和阐释,并对 DNA 数据进行了简化和预处理,将每个人的基因变异信息处理成向量。对处理后的 DNA 数据和 RNA 数据进行了相关性分析,再根据 229 个样本筛选出相关程度较高的 DNA 和 RNA 作为模型的输入参数。第三节以支持向量机为基础建立了代谢综合征的预测模型,并与其他处理方法进行了比较。在运算过程中对各种可能出现的情况进行了分类讨论,对预测模型的准确性进行了一定的评估,并对模型的优点和可改进之处进行了一定的探讨,指出了预测模型对代谢综合征预防和治疗的积极意义。关键词:代谢综合
3、征;基因;相关性分析;支持向量机;组学研究3目录1 问题的背景和研究意义 .31.1 代谢综合征发病机理文献综述 .31.1.1 预测模型的研究背景 .31.1.2 代谢综合症基本特征 .31.1.3 常见发病人群分布 3.41.1.4 代谢综合征的主要致病因素 .51.2 组学数据研究和分析 .51.2.1 基本定义 .51.2.2 组学数据的处理方式 .61.2.3 组学数据的研究意义 .62 预测模型设计 .72.1 数据预处理 .72.2 预测模型的建立 .102.2.1 关联矩阵动态量化模型 .102.2.2 关键通路的寻找 .112.2.3 根据个人信息预测发病风险 .163 进一
4、步研究方向 .20参考文献 .2141 问题的背景和研究意义1.1 代谢综合征发病机理文献综述1.1.1 预测模型的研究背景代谢综合征(MS)包括一簇心血管疾病危险因素,如中心性肥胖、血压及血糖水平增高、血脂异常。MS 与糖尿病、心血管及肾脏疾病的发生以及心血管疾病死亡、全死因死亡的危险性增高相关。根据InterAsia 结果提示 ,按照ATPIII的定义, 我国35-75岁的成年人中6400 万(13.7)的个体患有MS, 而38% 的男性和35%的女性至少拥有一种MS组分。根据IDF标准我国35-74岁的成年人中患有MS的人数上升至7700万(16.5) 。北方居民中 MS的患病率高于南方
5、居民, 城市居民高于农村居民。这些结果表明MS已经成为我国的严重公共卫生问题。 1经济的发展以及生活方式的改变或许可以解释这一现象。因此,对于MS的研究和预测自然成为了极为重要的问题。本论文通过对大量相关论文的解读,提炼出了相关方面最具价值的信息,从而为代谢综合征的预测模型提供了坚实的理论依据。1.1.2 代谢综合症基本特征根据国际糖尿病联盟(IDF)定义,要确认个体是否患代谢综合征,一般可以从以下两个个方面定义,若同时满足条件1,2,则可以定义此人存在代谢综合征 2。51 中心性肥胖:在欧洲裔人种中定义为男性腰围=94cm女性腰围=80cm,在其他人种中采用种族特异性的腰围切点见表1 2。2
6、 另加下列4因素中任意两项: 甘油三酯(TG)水平升高150mg/dl(1.7nmol/L),或已接受针对此脂质异常的特殊治疗 高密度脂蛋白胆固醇(HDL-C)水平降低:男性=130mmHg或舒张压=85mmHg,或此前已被诊断为高血压而接受治疗 空腹血糖升高:空腹血糖=100mg/dl(5.6nmol/L),或已被诊断为2型糖尿病。如果空腹血糖=100mg/dl(5.6nmol/L),则强烈推荐行口服葡萄糖耐量试验(OGCT);但是OGTT在诊断代谢综合征时并非必需。注:国内外标准略有差异,根据2007年中国成人血脂异常防治指南,符合以下3项者即可诊断为代谢综合征: 腹部肥胖:男性腰围90c
7、m、女性腰围85cm TG(甘油三酯)1.7mmol/L HDL-C(高密度脂蛋白胆固醇)1.04mmol/L 血压130/85mmHg 空腹血糖6.1mmol/L、餐后2小时血糖7.8mmol/L或有糖尿病史1.1.3 常见发病人群分布 3 大于等于40岁者 有1项或2项代谢综合征组成成分但尚不符合诊断标准者 有心血管病、非酒精性脂肪肝病、痛风、多囊卵巢综合征及各种类型脂肪萎缩征者6 有肥胖、2型糖尿病、高血压、血脂异常、尤其是多项组合或代谢综合征家族史者 有心血管病家族史1.1.4 代谢综合征的主要致病因素根据我们搜集的资料显示,当今医学界对MetS确切的病因与发生机制众说纷纭,尚未达成一
8、致。它的发生是多个疾病与潜在危险因素交互作用的结果,目前学术界较为公认的发病学说有胰岛素抵抗学说,肥胖学说和炎症学说等等。目前,绝大多数的学者认为MetS发病机制的中心环节为胰岛素抵抗 3。胰岛素抵抗是指研究对象的肝脏、骨骼肌以及机体的脂肪组织等对胰岛素不敏感,不能充分利用血浆中的葡萄糖。胰岛素抵抗是糖尿病发病的基础环节,此外它还刺激高血压症状的出现和血脂异常的发生,进而导致MetS的发病。除以上的发病机制以外,MetS的发生也与遗传、生活环境、精神因素、药物、生活习惯、饮食结构、体育锻炼等的因素均密切相关。ChandolaT等人进行的一项针对10308名任职于伦敦政府机关的工作人员的前瞻性的
9、研究发现,长期的工作压力是MetS发生的一个重要危险因素,研究得出,处于长期工作压力状态下超过14年是MetS发病的独立病因 5。近期也有研究发现,现代生活的高脂高糖饮食能够刺激机体发生炎症反应和氧化应激,从而导致胰岛素抵抗以及MetS的发生 6。缺乏体育锻炼、多食少动的现代生活方式是MetS近年来发病率上升的重要原因。1.2 组学数据研究和分析1.2.1 基本定义在生物学的研究范畴中,组学数据常见的表现形式有基因组学数据,蛋白质组学数据等。组学数据表示的是生物体相关信息的完整数据库,所含的信息可谓海量。随着计算机技术的爆炸式发展,相应产生的生物信息学是一门将生物和计算机结合的学科。它的研究重
10、点就在于组学数据,尤其是基因组学和蛋白质组学。生物信息学家们将整理好的相关生物信息录入庞大的数据,并运用数学和计算机技术对其进行分析和研究。在这一过程中形成的生物信息数据总和,就是我们通常所说的组学数据。人类基因组数据库就收录了人类7的所有基因的各种信息,比如基因的位点,基因的碱基序列等。在当今热门的大数据分析和研究领域,组学数据为新的生物学发现打下了坚实的基础。1.2.2 组学数据的处理方式根据题目所给出的数据,以及之前我们在 NCBI 和 EBI 等数据库进行搜索的结果,我们对数据进行了简单的解读。 基因数据在我们所得到的基因数据中,我们可以清楚地了解到基因的名称,以及基因的变异位点和变异
11、类型,由于样本数量有限,我们对基因的相关信息进行了筛选,删去了一些无关的信息。至于具体操作过程我们后面也会详细讲到。 RNA 数据我们所得到的 RNA 数据中用探针表示 RNA,虽然与基因不同,但是 RNA 名称作为一个代号,并不影响我们的实际建模过程,相对于基因数据,RNA 数据更容易处理成向量形式,从而为支持向量机的使用提供了许多便利。 蛋白组学和代谢组学数据从上面的讨论我们可以轻松地类推到蛋白质组和代谢组的情况,在此不过多赘述,在题目给出相应数据后,我们可以类比基因数据的处理方式,对这类数据进行规约。1.2.3 组学数据的研究意义组学数据对于我们此次的研究意义重大,因为现代生物以及医学的
12、新发现往往伴随着对组学数据的充分利用,组学数据能够帮我们跳出思维定势,从数据的关系之间寻找生物学的新发现。特别对于本篇文章要解决的问题来说,组学数据为问题的解决提供了数据基础。生物体的结构是非常复杂的,绝不能理解为简单的单向决定论。与传统的生物学研究不同,依赖大数据技术的组学数据生物信息学更倾向于把复杂的生物系统看作一个“黑箱”,侧重在数据的源头和末端利用计算机和数学手段分析数据之间的联系,从而再依据最终结果反馈,思考新的生物学理论和发现。生物医学是当今大数据研究的主要方向之一,它的根基也就是内容丰富的组学数据库,8我们建立的模型也以人类代谢综合征相关的组学数据为依托,在处理模型的过程中,暂时
13、抛开既有的生物学框架,用数据分析的手段探索代谢综合征发病过程中的关键基因和蛋白,从而为代谢综合征的早期诊断和预防提供可能。2 预测模型设计2.1 数据预处理首先我们在前面已经讨论过,代谢综合征虽然有很复杂的疾病机理,但是丰富的组学数据为我们建立模型打下了坚实的基础,根据我们已有的基因和 RNA 数据,我们能够较好地建立模型估计代谢综合征的发病情况。但是,我们也注意到,样本的数量和单个样本蕴含的信息量并不相称,故而我们在建立模型的第一步应该是对我们已有数据进行一定的处理,使之符合我们建模的要求,接下来我们用我们处理好的基因数据和 RNA 数据,将数据按照测序批次,性别等特征做了多次分组,以便揭示
14、数据的内在联系。另外,实践是检验真理的唯一标准,所以我们没有凭感觉去随便选择一种主流算法,而是在建模过程中,对照了神经网络和支持向量机的运算结果,并选择了效果较好的支持向量机方法。我们用图表来说明模型的最终实现情况以及操作过程。首先我们用一张图表具体说明题目所给数据能对我们的模型取到的具体作用。即基因影响代谢的主要过程。9图 1 基因影响代谢的主要过程10接下来是模型的建立过程,我们整个建模的思想和依据可以由下图给出,我们的预期目标在于,我们仅通过两个输入端即基因和生活习惯(从某种程度上来说,输入端的数据量要涵盖相关的 DNA,所需要的数据量是很大的) ,来得出最后的输出端口。图 2 算法的主要结构和流程那么本质说来,我们模型要涉及的主要内容有以下几点: 通过 RNA 和蛋白数据推测基因变异对表达量的影响 综合基因表达量与基因类别判断不同组学数据对于代谢过程的影响(预测模型的核心,也是本文的重点) 通过对于具体代谢数据的分析预测代谢综合征的风险本篇文章的目的即通过数学手段,解决量化模型的核心步骤,即不同组学数据对代谢数据的影响,其余几个部分需要借助进一步的资料和数据来进行模型的构建。接下来我们将具体阐释算法的实现过程。