1、 对一条新的基因序列进行生物信息学的分析海南中学作者:许汝言指导老师:黄小葵论文摘要本研究的主要内容是运用生物信息学的手段结合生物学实验方法对从一株产 -甘露聚糖酶的新菌种 A.tabescens EJLY2098获得的新基因序列( 命名为 man)进行生物信息学的分析。针对然后结合利用所获得的信息设计生物学方法证实其生物学功能。关键词:-甘露聚糖酶;A.tabescens EJLY2098;生物信息学论文目的和意义英国自然杂志网络版 2006 年 5 月 18 日报道,科学家已对含有 2.23 亿个碱基对,占人类基因组中碱基对总量的 8%左右的人类第一号染色体完成测序,宣告持续 16 年的人
2、类基因组计划全部完成。作为人类自然科学史上重要的里程碑, “人类基因组”的研究已从“结构基因组”阶段进入“功能基因组”阶段。在人类基因组计Comment l1: Comment l2: 划后相继推出的水稻基因组计划、马铃薯基因组计划、草鱼基因组计划等,和快速增长的微生物基因测序, “海量”的基因信息的积累,催生了“功能基因组”时代的来临。针对充分利用“海量”基因组信息的生物信息学不仅应运而生,而且为以注释、阐明基因功和利用基因生物学功能的“后基因组时代”的研究发挥了重大作用。生物信息学是把基因组 DNA序列信息分析作为源头,在获得了蛋白质编码区的信息后,进行蛋白质空间结构的预测和模拟,然后依据
3、特定蛋白质的功能进行必要的药物设计。就是说,生物信息学的主要任务是组织和分析生物学数据,而生物学数据的分析离不开计算机算法的运用。因此,可以说生物信息学是一门集生命科学、计算机科学、数学、物理学为一身的多学科交叉的前沿学科。生物信息学的主要研究对象是序列,即一维的分子排列顺序所分析,包括 DNA分子碱基序列和编码蛋白质的氨基酸序列。DNA 序列分析的主要任务是基因识别和发现某些功能区(如启动子、增强子等),DNA序列研究的最终目的是说明遗传语言的语法和语法规则,从而最终读懂 DNA序列。蛋白质的结构预测研究始终是生物信息学的核心内容之一,目前研究工作是利用一级结构中的氨基酸排列顺序所隐藏的信息
4、来预测蛋白质的高级结构,而蛋白质结构研究的最终目标是阐明肽链的折叠规律,即所谓破译“第二套生物学密码” 。“基因组计划”积累了大量生物信息。而生物信息学的任务就是挖掘和利用这些信息,从众多生命信息中发现统一的,本质的,有用的规律。而这些规律必将促进生命科学,如结构生物学,生物技术,药物设计,分子进化等研究工作的进展。所以,生物信息学将在“后基因组”的时代,发挥极其重要的作用,这将有助于全部读懂人类基因组的全部信息,有助于揭示基因组物质结构的复杂性,有助于生命起源和生物进化问题的最终解决,有助于识别与鉴定人类特定疾病的相关基因,有助于药物设计理论和方法的改进和提高。 1-10研究现状随着信息学大
5、环境的改善,如信息高速公路、国际互联网的发展,生物信息学发展迅速。美国、日本及欧洲各国的生物信息学已相继在Internet 上建立了各自的网络节点,进行管理大型数据库,为研究人员提供研究数据的分析、处理、采集、交换的服务。国际互联网所到之处,都有各种研究机构的联网、数据库的建立,开展生物信息学研究。各种数据库各具特色:GenBank、EMBL、DDBJ 是三大核苷酸及蛋白质数据库;GDB 数据库主要收集遗传学制图的资料;CEPH 的数据库收集 YACcontig;Genethon、CHLC 储存遗传学标记系列;Whiethead 研究所的数据库可了解全部 18000 个 STS 及联系作图的信
6、息;另外还有突变序列的数据库在建立之中。在各类数据库建立的同时,数据库设计中出现了集成化趋势,集成化包括:各类数据的集成、数据库与数据分析软件的整合。各种数据库分析、测序应用软件包也被开发出来。 11除了数据库、数据分析软件的发展,生物信息学中比较基因组学的发展也较为突出。其中河豚、鼠、猪、牛和马的基因组与人基因组的比较研究,秀丽隐杆线虫与人基因组的比较研究、酵母与人基因组的比较研究,支原体与嗜血流感杆菌基因组的比较研究,都取得了成果,从比较中分离到一些人类遗传病的候选基因,鉴定了一些新克隆的基因,为人类基因组的分析提供了有益的数据。随着计算机技术的发展和渗透,生物信息学在人类基因组中大规模测
7、序的自动化控制、测序结果分析处理、序列数据的计算机管理、各类遗传图谱、物理图谱的绘制、研究数据网络获取、分析和交换,以数据分析的结果辅助基因组研究等都发挥着不可替代的功能,显示出越来越重要的作用。全长 cDNA 序列 man 的生物信息学分析前言随着因特网在上世纪 90 年代的出现和信息技术的迅猛发展。生命科学也相伴走向信息化,其主要标志就是人类基因组计划的实施,这一计划及其相继展开的众多的基因组计划使得生物学数据急剧增加,而传统的实验手段却远远不能满足对这些数据的解释,使之上升到科学知识的高度 9-10。随着人类基因组计划的实施 ,分子生物学家提供了大量的有关生物分子的数据,如何将这些从实验
8、室中取得的生物信息进行整理,并能对以后的研究提供资料和依据,这就需要运用到现代计算机技术对这些原始数据进行收集,整理和分析,从而是人们在研究过程中及时得到有效的生物信息.因此,生物信息学不仅是一门学科,也是研究过程中的一项技术和开发工具.核酸序列分析是生物信息学应用中的一个重要方面.DNA 序列分析可分两大类:1.面向测序的 DNA 序列分析; 2.指定 DNA 序列的分析. 通过一个简单序列相似性的比较可以对未知序列进行初步的功能预测,对后续实验确定初步研究方向12。本论文通过对从真菌tabescens 中克隆出一个基因的全长 cDNA 进行生物信息的分析,预测这个未知 cDNA 的功能目前
9、因特网上有许多生物学信息库,采用不同的算法,对生物学数据进行从序列水平到结构层次,进而到功能的多种分析。本章的分析主要利用这些数据库和相关软件完成。材料和仪器(1)生物技术实验室从一株产 -甘露聚糖酶的新菌种 A.tabescens EJLY2098 克隆出一个全长 cDNA(命名为 man)(2)可以连接国际互联网的计算机核酸序列的基本分析运用 DNAMAN 软件分析核酸序列的分子质量、碱基组成和碱基分布。同时运用 BioEdit(版本 7.0.5.3)软件对 man 做酶切谱分析。碱基同源性分析运用 NCBI 信息库的 BLAST 程序对 man 进行碱基同源性分析(Translated
10、query vs.protien database(blastx)网站如下:http:/www.ncbi.nlm.nih.gov/BLAST/参数选择:TRANSLATE D query-PROTEIN database blastx; nr;stander1开放性阅读框(ORF)分析利用 NCBI 的 ORF Finder 程序对 man 做开放性阅读框分析,网址如下:http:/www.ncbi.nlm.nih.gov/projects/gorf/orfig.cgi参数选择:Genetic Codes:1 Standard对蛋白质序列的结构功能域分析运用简单模块构架搜索工具(Simple
11、Modular Architecture Research Tool,SMART)对 manORF 出的蛋白质序列进行蛋白质结构功能域分析。该数据库由 EMBL 建立,其中集成了大部分目前已知的蛋白质结构功能域的数据。12网址如下:http:/smart.embl-heidelberg.de/运用 NCBI 的 BLAST 程序再对此蛋白质序列进行 rpsBlast 分析参数选择:Search Database:CDD v2.0711937PSSMsExpect:0.01 Filter:Low complexitySearch mode:multiple hits 1pass同源物种分析用 D
12、NAMAN 软件将蛋白质序列与 GHF5 的 -甘露聚糖酶序列和GHF6 的 -甘露聚糖酶序列序列比对,根据结果绘出系统进化树,并进行分析。蛋白质一级序列的基本分析运用 BioEdit(版本 7.0.5.3)软件对 man ORF 翻译的蛋白的一些基本性质,对分子量、等电点、氨基酸组成等作出分析。二级结构和功能分析信号肽预测利用丹麦科技大学(DTU)的 CBS 服务器蛋白质序列的信号肽(signal peptide)预测,进入 Prediction Serves 页面。网址如下:http:/www.cbs.dtu.dk/services/SignalP/参数选择:Eukaryotes;Both
13、;GIF (inline);Standard;疏水性分析利用瑞士生物信息学研究所(Swiss Institute of Bioinformatics, SIB)的 ExPASy 服务器上的 ProtScale 程序 13对 ORF 翻译后的氨基酸序列做疏水性分析网址如下:http:/us.expasy.org/cgi-bin/protscale.pl参数选择:Hphob. / Kyte & Doolittle蛋白质溶解能力和 PROSITE motif search 的分析利用美国哥伦比亚大学(Columbia University)的 PredictProtein 服务器(PHD) 14对
14、ORF 翻译后的氨基酸序列通过发邮件的方式获得蛋白质溶解能力和 PROSITE motif search 分析的结果。网址如下:http:/cubic.bioc.columbia.edu/pp/submit_def.html磷酸化位点分析磷酸化和去磷酸化是细胞内信号传导的重要方式,利用丹麦科技大学(DTU )的 CBS 服务器上的 NetPhos2.0 Server 程序 15做磷酸化位点分析。NetPhos2.0 Server 程序是基于神经网络算法,对蛋白序列中的 Ser、Thr 和 Tys 三种氨基酸残基可能成为的磷酸化位点作出预测,网址如下:http:/www.cbs.dtu.dk/s
15、ervices/NetPhos/跨膜区分析蛋白质序列含有跨膜区提示它可能作为膜受体起作用,也可能是定位于膜的锚定蛋白或者离子通道蛋白等,从而,含有跨膜区的蛋白质往往和细胞的功能状态密切相关。12 利用丹麦科技大学(DTU)的 CBS 服务器上的 TMHMM Server v. 2.0 程序进行蛋白序列跨膜区分析。网址如下:http:/www.cbs.dtu.dk/services/TMHMM/参数选择:Extensive with graphics亚细胞定位通过 WoLF PSORT 工具基于其氨基酸序列预测蛋白质亚细胞定位点网址如下:http:/wolfpsort.seq.cbrc.jp/参
16、数选择:Fungi;From Text Area二硫键分析运用 SCRATCH Protein Predictor 对蛋白质的二硫键做出分析。网址如下:http:/www.ics.uci.edu/baldig/scratch/index.html 参数选择:Dlpro(Disulfide Bonds) 二级结构预测运用 PBIL LYON-GERLAND 信息库对蛋白质序列进行二级结构预测(Secondary structure prediction) ,主要用 Hopfield 神经网络(HNN)预测。网址如下:http:/npsa-pbil.ibcp.fr/cgi-bin/npsa_aut
17、omat.pl?page=/NPSA/npsa_hnn.html讨论与结果从一株产 -甘露聚糖酶的新菌种 A.tabescens EJLY2098 获得的全长 cDNA 序列如下:ACGCGGGGGAAAGATGCATCTGCTCGCTTTTCTGTCTCTGAGTACATTCCTGTGCTCTGCGTTCGCTGCTGTTCCTGAGTGGGGCCAATGTGGCGGCATTGGATGGACAGGACAGACCACTTGCGTTAGTGGTACAGTATGCGCAGCTCTCAATGACTATTATTCTCAATGTGTGCCTGGAACGGCCACAACAACGGCCGCTCCCACGAC
18、TGCTACATCAACAACCATTTCTTCCACTTCTCGCACAACTGCTACGTCGACCACAGCTTCCGCACCATCTTCTACTGGCTTTGTAACTACCTCTGGCACAGAGTTCCGCCTCAACGGTGCCAAATTTACTATCTTCGGCGCCAACTCATACTGGGTCGGGTTGATGGGCTATAGCACTACAGATATGAATAAAGCCTTCGCAGACATCGCGGCTACAGGTGCCACCGTCGTCCGCACATGGGGCTTCAATGAGGTAACGAGTCCTAACGGGATTTATTACCAGAGTTGGTCCGGAAGTAC
19、ACCAACTATCAACACAGGTTCTACGGGTCTTCAAAACTTTGATGCCGTCGTCGCTGCTGCTGCTGCACATGGCTTGAGGCTTATTGTTGCCATAACGAACAACTGGTCCGACTATGGTGGAATGGATGTATACGTTAACCAAATTGTCGGGTCTGGCTCTGCGCACGATTTATTCTATACCGACTGTGAGGTTATATCTACTTACATGAACTACGTCAAGACCTTCGTCTCGCGCTATGTGAACGAACCTACTATTTTAGGTTGGGAGCTTGCAAATGAACCTAGATGCAAGGGGAGTACCGGGACGACCTCTGGATCATGCACTGCAACGACTATCACAAAATGGGCCGCGGCAATTTCAGCGTACATCAAGTCGATCGATCCCAACCATCTTGTCGGGATAGGAGATGAAGGGTTCTACAATGAACCTAGCGCACCAACATATCCATATCAAGGTAGCGAAGGTATCGATTTTGATGCAAATTTGGCCATTAGTAGCATTGATTTCGGTACATTCCATTCCTATCCTATCAGCTGGGGTCAAAC