1、BLAST与数据库相似性搜索,上机实验一,教学内容,了解常用生物信息学数据库的数据格式理解BLAST的基本原理与基本功能掌握主要生物信息学数据库的访问和数据检索使用BLAST进行相似序列搜索使用BLASTCLUST进行序列相似度聚类,Outline,上机实验注意事项,操作一:生物信息学数据库访问与数据检索,操作二:使用BLAST搜索相似序列,操作三:使用BLASTCLUST进行相似序列聚类,上机操作注意事项,遵守计算机机房的各项规章制度服从授课教员与计算机教研室教员的管理和安排按课程要求和教师的规定上机操作,不得在上机过程中浏览与课程内容无关的网站,理论课内容回顾,双序列比对的基本理论与方法B
2、LAST的基本原理去除低复杂度序列构建邻居单词表(种子)在数据库中搜索种子,并延伸获得HSP计算比对分值和统计显著性(E-Value)使用BLAST查询未知序列,确定序列生物学功能使用BLASTCLUST进行序列相似度聚类,上机内容安排,常用生物信息学数据库的访问和数据检索使用BLAST进行相似序列搜索使用BLASTCLUST进行序列相似度聚类,上机文档下载,ftp下载本次课上机文档:ftp:/10.10.187.57 上机文档内容:上机内容与操作指南(Word文档)冗余的外膜蛋白数据集:OMP377.txt(FASTA格式)蛋白质三维分子可视化程序RasWin.exe/RasTop超级编辑器
3、 UltraEdit.rar,操作一:生物信息学数据库访问和数据检索,NCBI与Genbank,打开NCBI官方网站:http:/www.ncbi.nlm.nih.gov/ 观察页面内容,BLAST在何处?Genbank在何处?,NCBI与Genbank,进入Genbank,进入EntreZ,搜索Genbank中的核酸序列,试着搜索人血红蛋白beta亚基基因,输入:HBB Human,限定搜索范围:Genbank,搜索结果页面,mRNA,序列存取号,基因定义,数据库标识符(GI),信息来源:gb_GenBankemb_EMBLdbj_DDBJsp_SWISS-PROTpdb_Protein D
4、atabasepir_PIRprf_PRFref_RefSeq,mRNA序列内容,物种来源,特性,参考资料,座位号,GenBank的主要字段及其含义,字段含义解释LOCUSIdentifier 序列名称、性质描述ACCESSION Accession number 序列接受号DEFINITION Description 序列定义KEYWORDS Keywords 关键词SOURCE Organism(species) 来源种属ORGANISM Organism(classification) 来源分类REFERENCE Reference number 参文条目AUTHORS Referenc
5、e authors 参文作者TITLE Reference title 参文题目JOURNAL Reference location 参文出处COMMENTS Database cross-reference 交叉索引MEDLINE Medline number MEDLINE号FEATURES Feature table header data 序列性质表头数据BASE COUNT 碱基数目ORIGIN 序列开始标志/ Termination line 序列终止标志,mRNA序列内容,蛋白质 ID,源序列,蛋白质序列内容,ExPaSy与Uniprot,打开ExPaSy网站:http:/www
6、.expasy.ch/观察页面内容,寻找Uniprot和BLAST在何处?搜索栏在何处?,ExPaSy,Uniprot 搜索结果,P68871内容,蛋白质名称,基因名称,物种来源,有3D结构,蛋白质结构数据库PDB,登录蛋白质结构数据库PDB网站:http:/www.pdb.org/pdb/home/home.do观察页面内容,找到搜索栏,统计信息栏,Protein Data Bank,HBB_Human的结构数据1a00,使用RasMol观察1a00三维结构,下载1a00数据文件到本地磁盘解压缩RasTop或安装RasMol,打开1a00文件,观察其结构,操作二:使用BLAST搜索相似序列,
7、任务描述,某天,Prof. Gene在小鼠(Mus musculus)中又发现了一个与有丝分裂相关的基因,通过DNA测序,得到部分序列:,GATGAGCTGCTTATCCTACAACGAGAAGTCGGACATCTGGTCCTTGGGCTGCCTGCTGTATGAGCTGTGTGCACTAATGCCTCCCTTTACAGCTTTCAACCAAAAAGAGCTAGCTGGGAAAATCAGGGAAGGGAGGTTCAGGCGCATCCCCTACCGCTACTCTGATGGCTTGAATGACCTCATCACTCGGATGCTGAATTTAAAGGACTACCATCGACCTTCAGTGGAAGA
8、AATTCTGGAGAGCCCTTTGATAGCAGACTTGGTTGCAGAAGAGCAAAGGAGAAATCTGGAGAGGAGAGGACGGCGCTCAGGCGAGCCTTCGAAGCTGCCGGACTCCAGCCCTGTGCTGAGCGAGCTCAAGTTGAAGGAAAGGCAACTGCAGGATCGAGAGCAAGCACTCAGAGCTCGGGAGGACATCCT,问题:,1. 这个基因在小鼠中是哪个基因?基因的标识符是什么?这个基因在基因组上的定位是怎样的?2. 这个基因在人中的同源物是哪一个?标识符是什么?3. 在人中,这个基因标码的蛋白质是什么?具有什么样的功能?细胞亚定位在
9、何处?这个基因是一个酶吗,什么酶?具有什么样的功能结构域?4. 这个基因在酵母中保守吗?如果保守,哪个基因是人中的同源物?5. 这个基因在人中的同源物,编码的蛋白质有3级结构的信息吗?如果有,给出在PDB中的标识符。,思路,首先在Genbank中搜索该序列的相似序列,判断其来自于那个基因输入文件的FASTA格式:,Gene XGATGAGCTGCTTATCCTACAACGAGAAGTCGGACATCTGGTCCTTGGGCTGCCTGCTGTATGAGCTGTGTGCACTAATGCCTCCCTTTACAGCTTTCAACCAAAAAGAGCTAGCTGGGAAAATCAGGGAAGGGAGG
10、TTCAGGCGCATCCCCTACCGCTACTCTGATGGCTTGAATGACCTCATCACTCGGATGCTGAATTTAAAGGACTACCATCGACCTTCAGTGGAAGAAATTCTGGAGAGCCCTTTGATAGCAGACTTGGTTGCAGAAGAGCAAAGGAGAAATCTGGAGAGGAGAGGACGGCGCTCAGGCGAGCCTTCGAAGCTGCCGGACTCCAGCCCTGTGCTGAGCGAGCTCAAGTTGAAGGAAAGGCAACTGCAGGATCGAGAGCAAGCACTCAGAGCTCGGGAGGACATCCT,在GenBank中进行BLAS
11、T搜索,输入序列、选择数据库、搜索参数,搜索结果,图形化描述框,Gene Info,染色体信息,基因名称,结论1:,这个基因是小鼠的Nek2 NIMA基因,基因标识符是:NM_010892.3;该基因定位于小鼠的1号染色体,位置:193399659-193737126,搜索人中的同源基因,思路:考虑到蛋白质序列更加保守,因此以小鼠该基因编码的蛋白质序列来搜索人中的相似序列,获取该基因的蛋白质序列文件,NIMA蛋白质序列文件,BLAST搜索,搜索结果,人中的同源蛋白,Conserved Domains: S_TKc,发掘人中该同源蛋白的功能,思路:获取人中的同源蛋白NP_002488.1的序列,
12、在Uniprot中通过BLAST搜索该蛋白质序列,蛋白质序列,ExPaSy BLAST搜索,搜索结果:P51955,功能描述,三级结构信息,结论2,该基因在人中的同源基因是NM_002497.2,编码蛋白NIMA,标识符为NP_002488.1,该同源蛋白质具有保守的功能结构域S_TKc;该同源蛋白质在Uniprot中的标识符为P51955,其功能涉及:有丝分裂调控中的蛋白激酶;在G2-M transition 和减数分裂中扮演角色该同源蛋白的三维结构已经解析,在PDB中的结构数据的ID号为2JAV,搜索酵母中的同源蛋白,思路:利用ExPaSy BLAST在酵母中搜索相似序列,ExPasy B
13、LAST搜索:序列、数据库,搜索结果,结论3:,该基因在酵母中的同源物可能是:KIN3,操作三:使用BLASTCLUST进行序列相似度聚类,任务描述,外膜蛋白(Outer Membrane Protein,OMP)数据集:包含377条外膜蛋白数据,其中存在一些相似度较高的序列上机任务:使用在线的BLASTCLUST程序对该数据集分别按照90%、40%、25%等不同的序列相似度进行聚类,分析和比较聚类结果。,BLASTCLUST,访问在线BLASTCLUST网页:地址:http:/toolkit.tuebingen.mpg.de/blastclust观察页面内容,输入文件、设置参数、执行聚类,输
14、入文件,序列覆盖度,相似度阈值,蛋白质或核酸,Waiting for results,Save the results,利用UltraEdit查看聚类结果,90% identity: 323 Clusters!,40% identity: 202 Clusters!,25% identity: 132 Clusters!,本课小结,常用的生物信息学数据库是生物学和医学研究不可或缺的资源,这些数据库一般都具有专业化的检索工具。使用BLAST进行数据库相似性搜索,具有众多应用方向,比如确定未知序列的生物学功能BLASTCLUST是一种使用方便的相似序列聚类工具,可以用于构建非冗余的数据集,知其道 用其妙 THIS IS HOW:,SIEMENS,