生物信息数据库.PPT

上传人:h**** 文档编号:226757 上传时间:2018-07-23 格式:PPT 页数:68 大小:6.76MB
下载 相关 举报
生物信息数据库.PPT_第1页
第1页 / 共68页
生物信息数据库.PPT_第2页
第2页 / 共68页
生物信息数据库.PPT_第3页
第3页 / 共68页
生物信息数据库.PPT_第4页
第4页 / 共68页
生物信息数据库.PPT_第5页
第5页 / 共68页
点击查看更多>>
资源描述

1、,生物信息数据库,一、引言,生物分子数据高速增长,分子生物学及相关领域研究人员迅速获得最新实验数据,建立生物分子数据库,v生物信息数据库应满足多个方面,的主要需求,v(1)时间性v(2)注释,v(3)支撑数据v(4)数据质量v(5)集成性,生物信息数据库几个明显的特征:,(1)数据库的更新速度不断加快,数据量呈指数增长趋势,(2)数据库使用频率增长更快,(3)数据库的复杂程度不断增加,(4)数据库网络化,(5)面向应用,(6)先进的软硬件配置,一个数据库记录(entry)一般由两部分组成:,1.原始序列数据(sequencedata),2.描述这些数据生物学信息的注释(annotation),

2、注释中包含的信息与相应的序列数据同样重要和有应用,价值。,数据的完整性和注释工作量:,1.序列数据广,序列注释不够完整2.库数据面窄,序列注释全面,数据库的动态更新:,1.不断增加2.不断修正,分子生物信息数据库种类繁多。归纳起来,大体可以分为4个大类,即基因组数据库、核酸和蛋白质一级结构数据库、生物大分子(主要是蛋白质)三维空间结构数据库、以及由上述3类数据库和文献资料为基础构建的二次数据库。,基因组数据库来自基因组作图,序列数据库来自序列测定,结构数据库来自X射线衍射和核磁共振等结构测定。这些数据库是分子生物学的基本数据资源,通常称为基本数据库、初始数据库,也称一次数据库。,v生物信息数据

3、库,一级数据库,v数据库中的数据直接来源于实验获得的原始,数据,只经过简单的归类整理和注释,二级数据库,v对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的 。,生物信息数据库,染色体核酸蛋白质,基因组作图序列测定结构测定,基因组图谱DNA序列蛋白质序列蛋白质结构,基因组数据库核酸序列数据库蛋白质序列数据库蛋白质结构数据库,NCBI NationalCenterforBiotechnologyInformation(US)EBI EuropeanBioinformaticsInstitute(EU)HGMP HumanGenomeMap

4、pingProjectResourceCentre (UK) ExPASy ExpertofProteinAnalysisSystem(Switzerland)CMBI CentreofMolecularandBiomolecule(TheNetherlands)ANGIS NationalGenomeInformationService(Australia)NIG NationalInstituteofGenetics(Japan)BIC NationalBioinformaticsCentre(Singapore),国际著名的生物信息中心,一级数据库简介,1、核酸序列数据库,国际上权威的核

5、酸序列数据库 (1)欧洲分子生物学实验室的EMBL http:/www.emblheidelberg.de(2)美国生物技术信息中心的GenBank http:/www.ncbi.nlm.nih.gov/Web/Genbank/index.html(3)日本遗传研究所的DDBJ http:/www.ddbj.nig.ac.jp,相互合作,每天交换更新核苷酸序列数据, 三个数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。, 这三个数据库是综合性的DNA和RNA序列数据库,每条记录代表一个单独、连续、附有注释的DNA或RNA片段。,美国的核酸数据库GenB

6、ank 从1979年开始建 设,1982年正式运行Banson,D.A.etal.(1998)NucleicAcidsRes.26,17,欧洲分子生物学实验室的EMBL数据库也于1982年开始服务,日本于1984年开始建立国家级的核酸数据库DDBJ,并于1987年正式服务。,2、基因组数据库,来源于人类基因组计划及各种模式生物基因组计划,1977年,最早获得的生物基因组全序列是噬菌体(53kb),1995年,第一个自由生物体流感嗜血菌(H.inf) 被完全测序,部分生物基因组计划网址,老鼠(Mouse)小鼠(Rat)狗(Dog)牛(Cow)猪(Pig)羊(Sheep)鸡(Chicken),ht

7、tp:/www.informatics.jax.org/mgd.htmlhttp:/ratmap.gen.gu.sehttp:/mendel.berkeley.edu/dog.htmlhttp:/locus.jouy.inra.fr/cgibin/bovmap/intro2.plhttp:/www.ri.bbsrc.ac.uk/pigmap/pigbase/pigbase.htmlhttp:/dirk.invermay.cri.nzhttp:/www.ri.bbsrc.ac.uk/chickmap/chickbase/manager.html,斑马鱼(Zebrafish)http:/zfish

8、.uoregon.edu线虫(C.elegans) http:/www.ddbj.nig.ac.jp/htmls/celegans/html/CE_INDEX.html果蝇(Drosophila)http:/morgan.harvard.edu蚊子(Mosquito) http:/klab.agsci.colostate.edu拟南芥(Arabidopsis)http:/genomewww.stanford.edu/Arabidopsis,棉花(Cotton)玉米(Maize)水稻(Rice)大豆(Soya)树(Trees),http:/algodon.tamu.eduhttp:/www.ag

9、ron.missouri.eduhttp:/www.staff.or.jphttp:/mendel.agron.iastate.edu:8000/main.htmlhttp:/s27w007.pswfs.gov,GDB - Human Genome Database(美国、加拿大),1990年,JohnHopkins大学建立,后由加拿大儿童医院生物信息,中心管理.,数据内容:,基因单位、PCR位点、细胞遗传标记、EST、contig、重复片段、基因组图谱,与其它分子生物信息网络资源(EMBL、GenBank)的链接,AceDB,线虫基因组数据库。既是一个数据库,又是一个数据库管理系统。提供很好

10、的图形界面,用户能够从大到整个基因组小到序列的各,个层次观察和分析基因组数据。,http:/www.acedb.org,数据内容:,限制性图谱,基因结构信息,质粒图谱,序列数据,参考文献,3、蛋白质序列数据库,SWISSPROT,1. 瑞士日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI),合作维护(1986年);2. 在EMBL和GenBank数据库上均建立了镜像站点3. 数据库包括了从EMBL翻译而来的蛋白质序列,这些序列经过检验和注释;4. 数据记录包括两部分:序列注释(结构域、功能位点、跨膜区域、二硫键位置、翻译后的修饰、突变体等)5. 数据存在滞后性 数据库的建立SWISSPR

11、OT的网址:http:/cn.expasy.org/sprotTrEMBL的网址:http:/www.ebi.ac.uk/trembl/index.html,SWISSPROT(http:/www.expasy.ch/sprot/sprottop.html)是目前国际上比较权威的蛋白质序列数据库,其中的蛋白质序列是经过注释的,SWISS-PROT中的数据来源于不同发源地:,(1) 从核酸数据库经过翻译推导而来; (2) 从蛋白质数据库PIR挑选出合适的数据; (3) 从科学文献中摘录; (4) 研究人员直接提交的蛋白质序列数据,SWISS-PROT有三个明显的特点 :,(1)注释,在SWISS

12、-PROT中,数据分为核心数据和注释两大类。,核心数据包括:,序列数据、参考文献、分类信息(蛋白质生物来源的描述),注释包括:,(A)蛋白质的功能描述;,(B)翻译后修饰;,(C)域和功能位点,如钙结合区域、ATP结合位点等;(D)蛋白质的二级结构;,(E)蛋白质的四级结构,如同构二聚体、异构三聚体等;(F)与其它蛋白质的相似性;,(G)由于缺乏该蛋白质而引起的疾病;(H)序列的矛盾、变化等。,(2)最小冗余, 尽量将相关的数据归并,降低数据库的冗余程度。 如果不同来源的原始数据有矛盾,则在相应序列特征表中加以注释。,(3)与其它数据库的连接,对于每一个登录项,有许多指向其它数据库相关数据的

13、指针,这便于用户迅速得到相关的信息。 现有的交叉索引有: 到EMBL核酸序列数据库的索引, 到PROSITE模式数据库的索引, 到生物大分子结构数据库PDB的索引等 。,TrEMBL (http:/www.ebi.ac.uk/trembl/index.html) 是与SWISS-PROT相关的一个数据库。,包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库中。,TrEMBL有两个部分:,(1)SP-TrEMBL(SWISS-PROT TrEMBL),包含最终将要集成到SWISS-PROT的数据,所有的SP-TrEMBL序列都

14、已被赋予SWISS-PROT的 登录号。,(2)REM-TrEMBL(REMaining TrEMBL),包括所有不准备放入SWISS-PROT的数据,因此这部分数据都没有登录号。,进入网站,后在搜索栏里键入关键词,点击“”图标,Example,在搜索结果里找需要的信息即可,PIR(proteininformationresource)1. 由美国NCBI翻译自GenBank的DNA序列(1984年);2. 在EMBL和GenBank数据库上均建立了镜像站点;3. 数据依据注释的质量分为4类。网址:http:/wwwnbrf.georgetown.edu/PIR数据库的分类情况 (Releas

15、e51.03),分类名称(Name)PIR1PIR2PIR3PIR4,说明(Comment)已分类、已注释(Classifiedandannotated)已注释(Annotated)未核实(Unverified)未翻译(Unencodedoruntranslated),记录数(Numberofentries)13572693687508196,PIR(Protein Information Resource), 目的:,帮助研究者鉴别和解释蛋白质序列信息,研究分子进化、功能基因组。, 它是一个全面的、经过注释的、非冗余的蛋白,质序列数据库。, 所有序列数据都经过整理,超过99%的序列已按蛋白质

16、家族分类,一半以上还按蛋白质超家族进行了分类。,除了蛋白质序列数据之外,PIR还包含以下,信息:,(1)蛋白质名称、蛋白质的分类、蛋白质的来,源;,(2)关于原始数据的参考文献;,(3)蛋白质功能和蛋白质的一般特征,包括基因,表达、翻译后处理、活化等;,(4)序列中相关的位点、功能区域。,PIR提供三种类型的检索服务:,一是基于文本的交互式查询,用户通过关键字进行数据查询。,二是标准的序列相似性搜索,包括BLAST、FastA等。,三是结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索等。,三个子数据库,输入蛋白质代码1zni后search,Exampl

17、e,4、蛋白质结构数据库,PDB(proteindatabank ),1. 目前最主要的蛋白质分子结构数据库;,2.1970年代建立,美国Brookhaven国家实验室维护管理3.1988年,由美国RCSB(researchcollaboratoryfor,structuralbiology)管理;,4. 以文本格式存放数据,包括原子坐标、物种来源、测定,方法、提交者信息、一级结构、二级结构等;,5. PDBsum数据库:PDB注释信息综合数据库,具有检,索、分析、可视化的功能。,PDB的网址:http:/www.rcsb.org/pdb(美国),PDBsum的网址:http:/www.bio

18、chem.ucl.ac.uk/bsm/pdbsum,PDB(ProteinDataBank),PDB中含有通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构蛋白质核酸糖类其它复合物, 一种是隐式序列信息(implicitsequence),PDB的隐式序列即为立体化学数据,包括每个原子的名称和原子的三维坐标。,一种是显式序列信息(explicitsequence) 在PDB文件中,以关键字SEQRES作 为显式序列标记,以该关键字打头的 每一行都是关于序列的信息。,以胰岛素(insulin)为例,进入网站后,在搜索栏键入关键词insulin 后点击search键,得到如下页面

19、,Example,在搜索栏里输入蛋白质(PDB ID)1zni后搜索,用rasmol软件打开下载的1zni.pdb文件,HPDB,蛋白质数据库(HPDB),建于2004年,由河北大学建立和负责。对每个蛋白质分子结构说明部分做了中文翻译(最新加入数据库的分子除外),内容包括分子结构定性描述、样品的来源、表达载体、宿主、化学分析方法、分子结构组成成分等。支持中文查询。,HPDB数据库的网址:http:/ Classification of Proteins),lCATH(,Class, Architecture, Topology, Homology),SCOP(StructuralClassif

20、icationofProtein),英国医学研究委员会分子生物学实验室和蛋白质工程中心开发的基于,web的蛋白质结构数据库分类、检索和分析系统;,SCOP的网址:http:/scop.mrclmb.cam.ac.uk/scop/,CATH(class,architecture,topology,homology),英国伦敦大学开发维护;,CATH的网址:http:/www.biochem.ucl.ac.uk/bsm/cath,二级数据库简介,二级数据库的形式:大多以web界面为基础,具有文字信息、表格、图形、图表等方式显示数据库内容;一级数据库与二级数据库之间并无明确的界限。(例,如:GDB、

21、AceDB、SCOP、CATH等都已经具有二级数据库的特色),1、基因组信息二级数据库,TransFac (真核生物基因转录调控因子数据库),德国生物工程研究所开发维护,始建于1988年。,包括顺式调控位点、基因、转录因子、细胞来源、分类和,调控位点核苷酸分布6个子库。,TransFac的网址:http:/,2、蛋白质序列二级数据库,Prosite (蛋白质序列功能位点数据库),始建于1990年代初,由瑞典生物信息学研究所SIB负责维,护。,基于对蛋白质家族中同源序列多重序列比对得到的保守区,域,这些区域通常与生物学功能相关。,数据库包括两个数据库文件:数据文件Prosite;说明文件,Pro

22、siteDoc。,Prosite的网址:http:/cn.expasy.org/prosite/,输入关键词insulin后search,Example,3、蛋白质结构二级数据库,DSSP(DefinitionofSecondaryStructureofProteins),蛋白质二级结构构象参数数据库,DSSP的网址:http:/www.cmbi.kun.nl/gv/dssp/,FSSP(FamiliesofStructuralSimilarProteins),蛋白质家族数据库,FSSP的网址:http:/www2.emblebi.ac.uk/dall/fssp/,HSSP(HomologyDerivedSecondaryStructureofProteins),同源蛋白质数据库,HSSP的网址:http:/swift.cmbi.ru.nl/gv/hssp/,Thank you!,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 重点行业资料库 > 医药卫生

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。