1、生物信息学数据库及其利用方法摘 要:阐述了生物信息学数据库在生物信息学的发展过程中发挥的巨大作用;介绍了世界上主要的生物信息学数据库及其分类和特点;论述了如何利用生物信息学数据库;最后,对利用国际生物信息学数据库促进我国生物信息学的发展做出了展望。关键词:数据库;生物信息学;序列比对;数据挖掘;知识发现;1 生物信息学数据库的产生从 20 世纪 80 年代末开始,伴随着人类基因组计划( Human Genome Project, HGP) 的启动,生物信息学 ( Bioin formatics ) 这一由生物学、化学、物理、数学、信息科学和计算机科学等多学科交叉产生的新兴学科蓬勃发展,并被许多
2、著名科学家称为 21 世纪自然科学的核心领域。生物信息学是计算机和网络大发展及各种生物学实验数据迅猛增长形势下发展起来的组织生物学数据,并从数据中提取新知识的一门学科,它主要研究生物系统中的信息现象、信息流及其相互作用和调控规律,是一门理论与实践应用并重的学科。1997 年 12 月,中国科学院召开了以 “生物信息学” 为主题的第 87 次香山科技会议,来自海峡两岸的 30 多位生物学、物理学、化学和信息科学诸领域的专家学者出席会议,他们一致认为“ 生物信息学处在重大科学发现的前夜” 。目前,生物信息学以核酸和蛋白质等生物大分子数据库及其相关的图书、文献、资料为主要对象,以数学、信息学、计算机
3、科学为理论基础,以计算机、网络、应用软件为工具,对海量生物原始数据进行存贮、管理、注释、开发和加工,使之成为具有明确生物学意义的生物信息,并进一步通过对生物信息的查询、搜索、对比、分析,从中获取基因编码、基因调控、核酸和蛋白质结构功能及其相互作用的知识。在掌握大量信息和知识的基础上,探索生命起源和生物进化,以及生物的个体发生、发育和遗传之间的相互关系以及病变、死亡等生命科学中的重大问题,搞清它们的基本规律和时空联系,建立类似于化学元素周期表的“生物学周期表” 。生物信息学已成为整个生物学发展的重要组成部分,在今后相当长的时期内是生物学研究的平台性、交叉性和前沿性的学科。2 主要生物信息学数据库
4、美国、欧洲各国及日本等世界发达国家在生物信息学数据库建设和成立生物信息学专业机构两方面均走在世界前列,已相继在因特网上建立了各自的生物信息学网络节点,管理大型数据库,提供数据的分析、处理、采集、交换等服务。目前,国际上三大核苷酸、蛋白质数据库分别是:美国国家生物技术信息中心 ( NCBI)的 GenBank 数据库 ( http: www. ncbi. nlm. nih. gov)、 欧洲生物信息学研究所 ( EBI) 的核酸序列数据库 EMBL ( http: www. ebi. ac. uk /embl)和日本信息生物学中心 ( CIB) 的 DNA 数据库 DDBJ( http: www
5、. ddbj. nig. ac. uk / embl) ,它们每天都会交换数据,使其数据库的数据同步。著名的蛋白质序列数据库还有美国生物医学基金会建立的 PIR 和瑞士生物信息学研究所和欧洲分子生物学实验室共同维护的 SWISS-PROT,而著名的蛋白质结构数据库是美国 Brookhaven 实验室的 PDB。这些数据库中的数据来源于众多的研究机构和基因测序小组,或者来源于科学文献。3 生物信息学数据库的分类及特点按照处理对象分类,生物信息学中的数据库主要有四种类型:核酸序列数据库、蛋白质序列数据库、蛋白质结构数据库和基因组数据库。根据建库的方式,现有的生物信息数据库也可以大致分为四类:一级数
6、据库是最基础的,一般是国家或国际组织建设和维护的数据库,,如由美国 NCBI 所维护的 GenBank 等。二级数据库是在一级数据库的基础上,结合工作的需要将部分数据从一级数据库中取出,经过重新组合( 包括一定的修正或调整 )而成的数据库。其专一性很强,数据量相对较少,但质量高,数据库结构设计精制。专家库是一种特殊的二级数据库,但它是通过有经验的专家经过人工校对标识之后建立的。这种数据库质量很高,使用方便可靠,但更新和发展都比较慢。 SWISS-PROT 就是一个典型的专家库。还有一种是整合数据库,它是将不同数据库的内容按照一定的要求整合而成,为一定的目的服务,许多商业和内部数据库实质上就是整
7、合数据库。生物信息学数据库具有以下一些特点:( 1)数据库种类的多样性。生物信息学各类数据库几乎覆盖了生命科学的各个领域,如核酸序列数据库、蛋白质序列数据库、蛋白质的三维结构数据库、文献数据库如 Medline 等,多达数百种。( 2)数据库的更新和增长很快。数据库的更新周期越来越短,有些数据库每天都要更新。数据的规模也以指数形式增长。( 3) 数据库的复杂性增加,层次加深。许多数据库具有相关的内容和信息,数据库之间相互引用,如 PDB 就与蛋白质二级数据库、蛋白质结构分类数据库和蛋白质折叠数据库等几十种数据库直接关联。( 4) 数据库使用的高度计算机化和网络化。越来越多的生物信息学数据库与互
8、联网联结,从而为生物学家利用这些信息资源提供了前所未有的机遇,特别是绝大多数网上生物信息学数据库的信息资源可以免费检索或下载使用。4 生物信息学数据库的利用方法4. 1 运用数据库搜索及序列比较利用生物信息学数据库对于许多新得到的序列,我们并不知道其相应的生物功能。生物学研究人员希望能够通过搜索序列数据库找到与新序列同源的已知序列,并根据同源性推测新序列的生物功能。搜索同源序列在一定程度上就是通过相似比较寻找相似序列。在分子生物学中, DNA 或蛋白质的相似性是多方面的,可能是核酸或氨基酸序列的相似,可能是结构的相似,也可能是功能的相似。一个普遍的规律是序列决定结构,结构决定功能。所以当研究序
9、列的相似性时,我们最终希望根据这个普遍规律推测新序列相应的结构或功能,也就是发现新的生物分子数据的内涵。这种方法在大多数情况下是成功的,当然也有例外,同时也存在着这样的情况,即两个序列几乎没有相似之处,但分子却折叠成相近的空间形状,并具有相似的生物功能。4.2 运用数据挖掘技术利用生物信息学数据库生物信息学的诞生及发展,使得核酸、蛋白质结构和功能的数据,各种疾病相关数据及生物文献数据都飞速增长。但由此也带来一系列问题:一方面,日益增长的数据对信息的采集和处理提出了空前的要求;另一方面,如何从已经积累的海量数据和知识出发,从 DNA 序列中识别编码蛋白质的基因,以及调控基因表达的各种信号,预测蛋
10、白质的功能和结构,解读生物的遗传密码,进行药物设计等,都是目前面临的巨大挑战。而数据挖掘技术是解决上述问题强有力的工具,它能够有效地从大量数据中提取潜在的信息与知识。4. 3 运用知识发现利用生物信息学数据库目前的数据库系统可以高效地实现数据的录入、查询、统计等较低层次的功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。如何才能不被信息淹没,而是从中及时发现有用的知识、提高信息利用率?针对上述问题,人们产生了运用相关技术从众多数据中发现联系和规律,进而挖掘出知识的相关要求。因此,在数据库中进行知识
11、发现的研究已成为近年来的研究热点。5 利用国际生物信息学数据库促进我国生物信息学的发展科学家们普遍相信,本世纪最初的若干年是生物信息学研究取得辉煌成果的时代,也是它创造巨大的经济效益和社会效益的时代。生物信息学的发展在国内外基本上都处在起步阶段,所拥有的条件也大体相同。因此,这是我国生物学赶超国际先进水平的一个百年不遇的极好机会。生物信息学所带来的经济效益和它的商业前景是十分可观的,在因特网上利用国际生物信息学数据库资源不断采集数据进行分析、归类与重组、发现新线索、新现象和新规律,用以指导实验工作的设计可避免不必要的重复。它较传统的生物实验研究花费少、见效快、效益大,适合我国国情,有利于促进我
12、国生物信息学的发展。目前我国的许多科研人员非常重视对国际生物信息学数据库的利用以开展自己的研究工作。很多高校和科研机构已经开展了生物信息学的研究和建立生物信息学数据库以及开发相应的软件。这些都充分说明了我国对利用国际生物信息学数据库以及开展生物信息学研究的重视。有理由相信,我国的生物信息学研究在 21 世纪将取得更大的进展。参考文献 1 陈铭. 后基因组时代的生物信息学 J .生物信息学,2004, 2 ( 2):29 34. 2 孙言伟 , 邹立君.生物信息学的研究进展 J .中华医学图书情报杂志, 2002, 11 ( 7):13. 3 郑国清 , 黄静, 段韶芬, 徐丽敏.生物信息学研究
13、进展与展望 J .河南农业科学, 2003 , ( 1):4 8. 4 方平, 胡德华.试论生物信息学及其对情报学的影响 J .情报科学, 2002, 20 ( 2):117 119. 5 李道苹. 论信息技术对生物信息学的影响 J .情报技术, 2004, ( 2):13 15. 6 孙啸.生物信息学 J .电子科技导报, 1998, ( 11):1013. 7 方艳.数据挖掘在生物信息学中的应用 J .微机发展, 2004, 14 ( 4):1 3. 8 彭佳红, 张铭.数据挖掘技术及其在生物学信息学中的应用 J .湖南农业大学学报 ( 自然科学版), 2004, 30 ( 1):84 86. 9 胡文丰 , 张正国.生物医学数据挖掘 J .国外医学生物医学工程分册, 2003, 23 ( 1):1115. 10 王玲.基于知识发现的生物信息学 J .生物工程进展, 2000, 20, ( 3):2729.