一步一步教你使用NCBI数据库资源.doc

上传人:gs****r 文档编号:1489734 上传时间:2019-03-03 格式:DOC 页数:34 大小:58.50KB
下载 相关 举报
一步一步教你使用NCBI数据库资源.doc_第1页
第1页 / 共34页
一步一步教你使用NCBI数据库资源.doc_第2页
第2页 / 共34页
一步一步教你使用NCBI数据库资源.doc_第3页
第3页 / 共34页
一步一步教你使用NCBI数据库资源.doc_第4页
第4页 / 共34页
一步一步教你使用NCBI数据库资源.doc_第5页
第5页 / 共34页
点击查看更多>>
资源描述

1、一步一步教你使用 NCBI 数据库资源随着 ncbi 数据库各种资源的涌现,NCBI 已经成为科研工作者必不可少的资料查找,数据分析的工具。那么 NCBI数据如何使用,新手入门一步一步教你认识和使用 NCBI 数据库。一 综合数据库NCBI 数据库集 美国国立生物技术信息中心(National Center for Biotechnology Information),即我们所熟知的NCBI 是由美国国立卫生研究院(NIH)于 1988 年创办。创办NCBI 的初衷是为了给分子生物学家提供一个信息储存和处理的系统。除了建有 GenBank 核酸序列数据库(该数据库的数据资源来自全球几大 DNA

2、 数据库,其中包括日本 DNA数据库 DDBJ、欧洲分子生物学实验室数据库 EMBL 以及其它几个知名科研机构)之外,NCBI 还可以提供众多功能强大的数据检索与分析工具。目前,NCBI 提供的资源有Entrez、Entrez Programming Utilities、My NCBI、PubMed、PubMed Central、Entrez Gene、NCBI Taxonomy Browser、BLAST、BLAST Link (BLink)、Electronic PCR 等共计 36 种功能,而且都可以在 NCBI 的主页 www.ncbi.nlm.nih.gov 上找到相应链接,其中多半

3、是由BLAST 功能发展而来的。1 NCBI 最新进展1.1 PubMed 搜索功能的增强去年,NCBI 对 PubMed 进行了几项改进工作,改动最大的是搜索界面和摘要浏览界面。其中,搜索界面中新增了“Advanced Search”选项(这实际上是对以往 “Limits”和“Preview/Index”功能的整合),并且增加了一个新的窗口,用户可以在此窗口下通过“论文作者名” 、 “论文所属杂志名称” 、 “论文出版日期”等限定条件进行搜索。而且, “论文作者名”和“论文所属杂志名称”还设有文本框自动填充功能。现在,在 PubMed 数据库中进行文本搜索的同时还可以立即通过两个“内容传感器

4、(content sensors)”进行分析。一个“内容传感器”是根据作者姓名、所属杂志名称或杂志名缩写、出版日期、卷号或刊号等信息进行分析,然后将符合条件的搜索结果排列到结果列表的顶端。另一个“内容传感器”是根据文章是否与用户给出的条件,例如是否与某种药物相关,在 NCBI 的新增数据库 PubMed Clinical QA 中进行搜索,然后给出搜索结果。1.2 新增 primer-BLAST 分析工具2008 年,NCBI 新增了设计、分析 PCR 引物的工具Primer-BLAST。Primer-BLAST 的引物设计功能是基于NCBI 现有的 Primer3 程序发展而来的,Prime

5、r3 程序可以为一段 DNA 模板序列设计 PCR 引物。Primer-BLAST 在设计出引物之后还在某些相应数据库中进行 BLAST 搜索,因此可以得到特异性引物,扩增出目的片段。用户在给出 DNA模板的同时还可以限定正向引物或反向引物,这样,NCBI就只会给出另一条引物。如果用户给出了模板 DNA 和两条引物序列,Primer-BLAST 就只会运行 BLAST 程序,帮助用户对引物进行分析。用户也可以只给出两条引物而不给出模板序列,这时 Primer-BLAST 会通过 BLAST 程序分析出与这对引物最匹配的模板序列。Primer-BLAST 进行BLAST 搜索的数据库包括 Ref

6、Seq mRNA、BLAST nr 和 12种模式生物基因组数据库。1.3 BLAST 的改进及更新NCBI 对 BLAST 进行了全新的改版,推出了最新的 web BLAST report。在最新的 BLAST 比对结果页面中, “图形化概要(Graphic Summary)” 、 “具体描述(Descriptions)”以及“序列比对(Alignments)”等部分页面都可以展开和收起。此外,网页上还提供了“结果输出格式选项(Formatting)”和“结果下载选项(download)” ,在下载选项中还新增了CSV 格式下载。这样,读者可以轻松地将 BLAST 的比对结果输入到表格处理软

7、件中去。另外,BLAST 比对结果页面上的“Alignments”部分还提供了每一条命中序列在 Entrez GENE 中的相关信息,这些信息包括基因名称、来源物种以及在 PubMed 数据库中与该基因有关条目的数目等。“BLAST tree”结果输出模式可以测量不同序列间的距离,自动收起亚类信息等。现在,可以以 Newick 格式或Nexus 格式下载 BLAST tree 结果,也可以在进化树图中选择任一节点重新构树。最后还要向读者介绍 ncbi blast 的一个新网址:URL: blast.ncbi.nlm.nih.gov。NCBI 建议读者都使用这个网址登陆 NCBI BLAST,因

8、为该 BLAST 使用更多的计算机进行分析,也具有更强的系统容错能力。1.4 Entrez Gene 改进及更新基因组注释工作当中有一项重要的工作就是定位基因重叠群序列(contig sequences),即在染色体中找出某个基因的定位。实际上基因组测序工作就是将许多基因重叠序列彼此拼接,最后拼出“完整(中间会有一些缝隙)”的基因组图谱。这项工作可以直接将某个基因与某段基因重叠群序列对应起来,但不能直接将该基因与染色体联系起来,而这恰恰是生物学家最感兴趣的地方。因此,为了能让用户在搜索基因的同时,也能了解到一些该基因在染色体中的定位情况,Entrez Gene 推出了新的“Limits”服务,

9、用户可以使用该服务在基因组范围内进行基因搜索。用户可以在某个物种染色体的某个区域里进行基因搜索。Entrez Gene 会按以下三种顺序对搜索出的基因进行排序:1. 按照基因名排序。2. 按照相关性排序,即按照结果与用户搜索所使用的关键词,例如基因名称等的匹配程度排序。3. 按照基因重要性排序,即按照该基因在PubMed、 Homologene、Protein Clusters、Online Mendelian Inheritance in Man(OMIM)或 Bookshelf 中文献数量的多少进行排序。2 ENTREZ 搜索系统2.1 EntrezEntrez 数据库是一个整合了多个数据

10、库的综合检索系统,它包含了 35 个不同数据库的信息,共收录有超过350,000,000 条记录(表 1)。Entrez 数据库支持使用简单的布尔查询(Boolean queries)方式进行文本搜索,可以下载不同格式的数据资料,还可以按照生物学关系提供与其它相关记录的链接。这些链接给出的都是最简要的信息,例如会给出一条序列和报道该序列的论文摘要,或者会给出一条蛋白质序列的编码 DNA 序列或该蛋白质的 3D 结构图。这种通过计算机运算,即基于比较序列相似性或 PubMed 中摘要的相似性,所给出的相关链接信息可以以最快的速度提供给用户大量的相关信息。还有一种叫做“LinkOut”的功能将这种

11、链接功能扩展到了与外部数据库,例如各物种基因组数据库之间的链接。Entrez 中搜索到的数据可以以多种格式输出,也可以打包下载或逐个下载。2.2 My NCBIMy NCBI 功能是为了方便用户储存个人配置信息,例如搜索条件、LinkOut 参数或文件出处等而设的。用户登陆自己的 My NCBI 帐户后,就可以进行保存搜索设置、管理邮件等操作了。My NCBI 中有一种称作“ Collections”的功能可以让用户储存搜索结果和文献结果。BLAST 中也设有类似的功能,这样用户就可以使用同一条件进行多次比对了。2.3 Entrez programming utilities(E-Utilit

12、ies)E-Utilities(Entrez 应用程序 )由 8 种服务器程序组成,借助 E-Utilities 可以设置一套标准参数进行搜索、链接和下载数据(表 2)。用户可以到 NCBI 主页上的Entrez Tools链接中了解更多有关 E-Utilities 的信息。 2.4 TaxonomyNCBI Taxonomy(分类)数据库在 Entrez 生物学数据库中起到了组织中心的作用。该数据库为每一个分类学上的节点,从超界节点(superkingdoms)到亚种节点(subspecies),提供数据链接服务。分类数据库以每月增加 2200 个新分类单位的速度在增长,共收录有将近 300

13、,000 种物种信息,这些信息为“属(genus)” 级别,或者虽然未达到“属(genus) ”级别,但在 Entrez 至少收录有一条该物种的核酸序列或蛋白质序列信息。使用 Taxonomy 网页可以了解该物种在分类学上的地位,也可以在某一物种范围内对 Entrez 数据库进行搜索。3 BLAST 序列相似性搜索程序BLAST 程序是一种进行序列相似性搜索的程序,它可以对核酸序列或蛋白质序列进行分析。经过 BLAST 程序比对之后会得到各种序列结果,例如转录体序列(UniGene)信息、基因序列(Gene)信息、3D 结构信息(MMDB)或芯片信息(GEO)等。用户也可以使用 My NCBI

14、 功能保留 BLAST 中设定的搜索题目、近期搜索结果和搜索参数等信息。还有一种 BLAST 程序BLAST2Sequences 程序,它可以对两条DNA 序列或蛋白质序列进行比对,并获得一个点对点的比对结果。BLAST 程序也可以作为一个独立的程序下载到本地计算机上使用,用户可以到ftp.ncbi.nih.gov/blast/executables/LATEST/下载(表 3)。3.1 BLASTBLAST 默认的比对信息数据库包括 NCBI 中的人类基因组数据库和人类 RefSeq 数据库。比对之后,BLAST 会按照评分高低、序列相似度对结果进行排序,另外 BLAST 还可以对小鼠数据库

15、以及其它数据库进行比对。蛋白质序列的默认数据库包括 GenBank 非冗余数据库、RefSeq、Swiss-Prot、PDB、PIR 和 PRF 等。此外,还包括这些数据库下的子数据库以及其它一些专利数据库和诸如核酸数据库等环境样品数据库(environmental samples)。3.2 BLAST output formats标准的 BLAST 输出格式包括默认的配对比对格式(default pairwise alignment)、搜索定位的多序列比对格式(query-anchored multiple sequence alignment formats)、简单的可解析的 Hit Ta

16、ble 格式以及按照分类学给出的报告格式等。一种叫做“按照同一性进行配对(Pairwise with identities)”的格式能更好地突出目标序列与检索序列之间的差别。而Web BLAST 中提供的树状浏览格式则会按照搜索出的目标序列与检索序列之间的距离不同将这些目标序列进行聚类,形成一幅树状图来显示结果。BLAST 比对之后给出的每一种格式的比对结果都会有一个分值和 E 值。用户也可以设定一个 E 值的阈值来筛选比对结果。3.3 MegaBLASTMegaBLAST 也是一种 BLAST 程序,不过它主要是用来在非常相似的序列之间(来自同一物种)比对同源性的。使用者通过网页使用 Meg

17、aBLAST 进行批量比对操作,这比使用标准的 BLAST 程序要快 10 倍。MegaBLAST 在 NCBI 基因组BLAST 页面下是默认的搜索工具,借助它能对增长迅速的Trace Archives 数据库和标准 BLAST 使用的数据库进行快速检索。NCBI 还为跨物种核酸序列快速搜索提供了Discontiguous MegaBLAST,它使用非重叠群字段匹配算法(noncontiguous word match)来进行核酸比对。Discontiguous MegaBLAST 比 blastx 等翻译后比对要快得多,同时它在比较编码区时也具有相当高的敏感度。3.4 Genomic BLASTNCBI 在 Map Viewer 中还为 100 多个物种设有 Genomic BLAST。通过默认的 Genomic BLAST 既能对某个物种的基因组序列进行搜索,也能对其它的数据库进行搜索,比如

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 企业管理资料库 > 生产营运

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。