1、蛋白质和蛋白质组分析,孙明明,主要内容,数据库与检索工具UniProt, Genbank, RefSeq, IPI,Ensembl, PDB,DIP,et al.蛋白质数据分析基本物理化学性质分析序列相似性比较翻译后修饰分析功能域分析亚细胞定位分析,Go功能分类与富集分析 Pathway分析 相互作用与网络分析,IPI,Gene ontology,TRANSFAC,DATABASE,BLAST,Pfam,.,HMMER,BLAST2GO,GENEGO,EMBOSS,Interproscan,.,TOOLS,Output,cytoscape,Pajek,常见数据,GI:120407068,XP_
2、001604088.1,NP_000537.3,IPI00025087.2,P53_HUMAN,P04637,ENSP00000269305,Q9EX73,AAF36358.1,主要蛋白质序列检索工具,NCBI Entrez,KEGG DBGET,UNIPROT,IPI,Ensembl,主要内容,数据库与检索工具UniProt, Genbank, RefSeq, IPI,Ensembl, PDB,DIP,et al.蛋白质数据分析基本物理化学性质分析序列相似性比较翻译后修饰分析功能域分析亚细胞定位分析,Go功能分类与富集分析 Pathway分析 相互作用与网络分析,蛋白质基本物化性质分析,EM
3、BOSSPepstatsPepinfoPepwindow,ExPASy(Expert Protein Analysis System)ProtParamCompute pI/MWProtScale,分子量等电点残基数氨基酸组成,http:/ - pepstats,在线工具:http:/www.ebi.ac.uk/Tools/emboss/pepinfo/本地下载:http:/ - ProtParam,http:/us.expasy.org/tools/protparam.html,计算多种理化指标,主要内容,数据库与检索工具UniProt, Genbank, RefSeq, IPI,Ensem
4、bl, PDB,DIP,et al.蛋白质数据分析基本物理化学性质分析序列相似性比较翻译后修饰分析功能域分析亚细胞定位分析,Go功能分类与富集分析 Pathway分析 相互作用与网络分析,序列相似性比较,两序列比较主要工具:BLAST常用数据库:NCBI NR,SWISSPROT命令示例: formatdb -i nr.fasta o T p Tblastall i input.seq d nr p blastp e 1e-3 b 10 o blast.out -b 5 v 5 a 2多序列比对Clustalw/clustalx (http:/www.clustal.org/)等,主要内容,数
5、据库与检索工具UniProt, Genbank, RefSeq, IPI,Ensembl, PDB,DIP,et al.蛋白质数据分析基本物理化学性质分析序列相似性比较翻译后修饰分析功能域分析亚细胞定位分析,Go功能分类与富集分析 Pathway分析 相互作用与网络分析,翻译后修饰分析,翻译后修饰是调节蛋白质功能的重要方式,对蛋白质翻译后修饰的研究可以帮助阐明和了解蛋白质功能及其功能变化,翻译后修饰的预测和分析也日渐成为生物信息学蛋白质序列分析中的重要的研究内容。 磷酸化、糖基化、甲基化、泛素化和羟基化等等,翻译后修饰数据库,翻译后修饰预测软件,主要内容,数据库与检索工具UniProt, Ge
6、nbank, RefSeq, IPI,Ensembl, PDB,DIP,et al.蛋白质数据分析基本物理化学性质分析序列相似性比较翻译后修饰分析功能域分析亚细胞定位分析,Go功能分类与富集分析 Pathway分析 相互作用与网络分析,一、蛋白质功能域数据资源,蛋白质功能域分析,二、蛋白质功能域搜索工具,HMMERINTERPROSCANrpi-blast,HMMER,HMMERHMMER是用 “隐马尔可夫模型”(HMM)进行数据库搜索的一个应用程序包。http:/hmmer.janelia.org/#download 免费下载HMMER应用程序包。Hmmpfam库文件:ftp:/ftp.sa
7、nger.ac.uk/pub/databases/Pfam/current_release/Pfam-A.hmm.gz命令行:hmmpfam Pfam-A.hmm sequence_file output_file,InterproScan,http:/www.ebi.ac.uk/Tools/InterProScan/,本地下载安装:ftp:/ftp.ebi.ac.uk/pub/databases/interpro/iprscan,rpi-blast,应用方法: rpsblast -i input_seqs.txt -d cdd -p T o out_result CDD库下载: ftp.nc
8、bi.nih.gov/pub/mmdb/cdd/ 详细信息: http:/www.ncbi.nlm.nih.gov/staff/tao/URLAPI/rpsblast.html,主要内容,数据库与检索工具UniProt, Genbank, RefSeq, IPI,Ensembl, PDB,DIP,et al.蛋白质数据分析基本物理化学性质分析序列相似性比较翻译后修饰分析功能域分析亚细胞定位分析,Go功能分类与富集分析 Pathway分析 相互作用与网络分析,亚细胞定位分析,大部分蛋白质都是先分布到不同亚细胞位置再行使功能的蛋白质的功能与其亚细胞定位有很强的关联,亚细胞定位数据资源,亚细胞定位预
9、测工具,PSORT,http:/www.psort.org/在线工具: http:/psort.hgc.jp/,主要内容,数据库与检索工具UniProt, Genbank, RefSeq, IPI,Ensembl, PDB,DIP,et al.蛋白质数据分析基本物理化学性质分析序列相似性比较特征序列分析翻译后修饰分析功能域分析亚细胞定位分析,Go功能分类与富集分析 Pathway分析 相互作用与网络分析,GO(Gene Ontology)分类,Gene Ontology介绍GO ontologies的描述GO annotation的介绍GOslim分类统计BLAST2GO富集与缺少分析,什么是
10、GO?,随着多种生物genome的相继解码,使得annotation的工作量和复杂度大大增加。大多数基因在不同真核生物中拥有共同的主要生物功能,通过在某些物种中获得的基因或者蛋白质的生物学信息,可以用以解释其他物种中对应的基因或蛋白。Gene Ontology(简称GO)由上述的想法而诞生,用来将所有的蛋白质功能进行分类,Gene OntologyTM (GO) Consortium,http:/www.geneontology.org/,The structure,HierarchicalDirected Acyclic Graphterms have one or more parents
11、is-a and part-of relations,Cellular Component e.g. nucleus, ribosome,Three Ontologies,Molecular Function e.g. DNA binding, catalysis of a reaction,Biological Process e.g. metabolism,OBO - Open Biological Ontologies,http:/www.geneontology.org/ontology/gene_ontology.obo,http:/www.geneontology.org/onto
12、logy/gene_ontology.obo,GO term各字段的说明,id: GO:0006094name: gluconeogenesisnamespace: processdef: The formation of glucose fromnoncarbohydrate precursors, such aspyruvate, amino acids and glycerol.exact_synonym: glucose biosynthesisis_a: GO:0006006is_a: GO:0006092,unique GO ID,term name,definition,syno
13、nym,parentage,ontology,Ontology Structure,Terms 可能有一个以上的父Term,或者一个以上的子TermTerms的连接关系is-apart-of,Ontology Structure,membrane,is-a,Mitochondrialmembrane,nucleus,cell,part-of,nucleus part_of some cell,GO Annotation,电子注释(Electronic annotation)量大但质量低并且没有经过校验人工注释(Manual annotation)来自文献花费时间长但质量高,GO Annotat
14、ion,ISS Inferred from Sequence/Structural SimilarityIDAInferred from Direct AssayIPI Inferred from Physical InteractionTASTraceable Author StatementNASNon-traceable Author StatementIMPInferred from Mutant PhenotypeIGI Inferred from Genetic InteractionIEPInferred from Expression PatternICInferred by
15、CuratorIEAInferred from electronic annotation,Accessing annotations to the Gene Ontology 1. Downloads Annotations gene association file( ftp:/ftp.geneontology.org/pub/go/gene-associations/ )2. Web-based access AmiGO (http:/www.godatabase.org),Gene Association File,Calcyclin IPI00027463 protein taxon
16、:9606 20040426 UniProt Calcyclin IPI00027463 protein taxon:9606 20030721 UniProt Calcyclin IPI00027463 protein taxon:9606 20030721 UniProt,UniProtP06703S106_HUMAN GO:0008083 GOA:spkw IEA FUniProtP06703 S106_HUMAN NOT GO:0007409 PMID:12152788 NAS PUniProtP06703 S106_HUMAN GO:0005515 PMID:12577318 IPI
17、 UniProt:P50995 F,DB DB_Object_ID DB_Object_Symbol Qualifier GOid DB:Reference Evidence With Aspect,DB_Object_Name DB_Object_Synonym DB_Object_Type taxon Date Assigned by,GO 分类统计,什么是GO Slim?GO Slim是GO ontologies的缩减版如何做分类统计Map2slim.pl (Go-perl)gene_ontology.oboSlim文件,如goslim_generic.oboGO Annotation
18、Files,Map2slim.pl,前提条件是安装Perl-activeperl(windows)Go-perl包可从CPAN免费获取 http:/www.cpan.org/,gene_ontology.obo,http:/www.geneontology.org/GO.downloads.ontology.shtml,Slim文件下载,http:/www.geneontology.org/GO.slims.shtml,GO Annotation Files,运行方法,根据已有的Accession列表去GO Annotation Files文件中寻找对应的GO ID.Map2slim t c
19、goslim_generic.obo gene_ontology.obo gene_associations_file go_slim.outhttp:/search.cpan.org/cmungall/go-perl/scripts/map2slim,找不到程序 or不会使用perl,BLAST2GO,首先安装JRE(Java Runtime Enviroment)Blast2Go的Web启动地址:http:/www.blast2go.de/,Blast2GO的工作流程,富集分析和缺失分析,主要内容,数据库与检索工具UniProt, Genbank, RefSeq, IPI,Ensembl,
20、 PDB,DIP,et al.蛋白质数据分析基本物理化学性质分析序列相似性比较特征序列分析翻译后修饰分析功能域分析亚细胞定位分析,Go功能分类与富集分析 Pathway分析 相互作用与网络分析,KEGG Pathway(KEGG: Kyoto Encyclopedia of Genes and Genomes),KEGG的六个大类MetabolismGenetic Information ProcessingEnvironmental Information ProcessingCellular ProcessesHuman DiseasesDrug Development,http:/www
21、.genome.jp/kegg/pathway.html,http:/www.genome.jp/kegg/pathway/map/map01100.html,代谢分类(Metabolism),碳水化合物代谢(Carbohydrate Metabolism)能量代谢(Energy Metabolism)脂代谢(Lipid Metabolism)核酸代谢(Nucleotide Metabolism)氨基酸代谢(Amino Acid Metabolism)其它的氨基酸代谢(Metabolism of Other Amino Acids)多糖合成和代谢(Glycan Biosynthesis and
22、 Metabolism)多酮类和非核糖体多肽类的生物合成(Biosynthesis of Polyketides and Nonribosomal Peptides)辅助因子和维生素代谢(Metabolism of Cofactors and Vitamins)次生代谢物的生物合成(Biosynthesis of Secondary Metabolites)异生素生物降解和代谢(Xenobiotics Biodegradation and Metabolism),Pathway的各元素的连接,Pathway - KO KEGG ontologyPathway - ENZYMEPathway -
23、 REACTIONPathway - CompoundPathway - GENE eg. Has:000001,磷酸化,去磷酸化,泛素化,糖基化,甲基化,激活,抑制,非直接影响,状态改变,绑定/关联,分裂,复合物,基本流程,序列,ID,标准ID(KO,KEGG GENE),KEGG 工具,画图,blast,convert,KEGG MAPPER,http:/www.genome.jp/kegg/tool/color_pathway.html,KAAS(KEGG Automatic Annotation Server),http:/www.genome.jp/tools/kaas/,Compl
24、ete or Draft Genome- KAAS job request (BBH method),Partial Genome- KAAS job request (SBH method),ESTs- KAAS job request (BBH method)- KAAS job request (SBH method),KEGG API,访问KEGG系统应用程序接口检索和计算生物化学途径,用户程序(Perl, Java, Ruby, Python),KEGG Web Server,API,调用,执行,计算返回结果,KEGG API应用准备之Perl篇,必需的Perl模块SOAP Lite
25、 (推荐0.60版)MIME-Base64LWPURI确保能访问KEGG网站,http:/www.genome.jp/kegg/soap/doc/keggapi_manual.html,Quick Start,#!/usr/bin/env perl use SOAP:Lite; # 调用库$wsdl = http:/soap.genome.jp/KEGG.wsdl; #wsdl文件路径$serv = SOAP:Lite-service($wsdl); #建立一个服务$offset = 1; #参数定义$limit = 5; #参数定义$top5 = $serv-get_best_neighbo
26、rs_by_gene(eco:b0002, $offset, $limit);#调用get_best_neighbors_by_gene,获取与基因eco:b0002比对的最好的基因,从第一个开始,取5个foreach $hit ($top5) print $hit-genes_id1t$hit-genes_id2t$hit-sw_scoren; #-输出结果,主要内容,数据库与检索工具UniProt, Genbank, RefSeq, IPI,Ensembl, PDB,DIP,et al.蛋白质数据分析基本物理化学性质分析序列相似性比较特征序列分析翻译后修饰分析功能域分析亚细胞定位分析,Go
27、功能分类与富集分析 Pathway分析 相互作用与网络分析,蛋白质相互作用,相关概念蛋白质相互作用数据库蛋白质相互作用的预测方法蛋白质相互作用的分析相关软件介绍,生物学背景知识,从DNA到蛋白质:,蛋白质是由多种氨基酸按特定的排列顺序通过肽键连接成有一定结构的高分子化合物。,概念,蛋白质A,蛋白质B,结合,剪切,修饰,直接的物理相互作用,蛋白质A,蛋白质B,基因,转录调控作用,蛋白质A,蛋白质B,反应1,反应2,代谢通路中的蛋白质相互作用,蛋白质组相互作用数据库,数据库比较之数据量,Suresh Mathivanan An evaluation of human protein-protein
28、 interaction data in the public domain. BMC Bioinformatics 2006,7,数据标准 PSI-MI,Proteomics Standards Initiative(PSI)定义蛋白质组的数据表示方式简便数据的比较、交换和检验XML格式参考文档:http:/ (Human Protein Reference Database),来自于文献而且有实验证据相关信息post-translational modifications,subcellular localizationprotein domain architecture,tissue
29、expressionAssociation with human diseases除了蛋白质之间的相互作用蛋白质与核酸的相互作用蛋白质与小分子的相互作用数据格式PSI-MIProteomics Standards InitiativeMolecular Interactions,http:/www.hprd.org/,DIP,人工从文献中获取的两两相互作用和复杂相互作用,http:/dip.doe-mbi.ucla.edu/,IntAct,有相互作用的详细说明信息,实验方法,文献来源提供了初级和高级的数据检索界面数据格式为PSI-MI (version 1.0 和version2.5)http
30、:/www.ebi.ac.uk/intact/main.xhtml,提纲,相关概念蛋白质组相互作用数据库蛋白质相互作用的分析,蛋白质相互作用研究技术及方法,大规模蛋白质相互作用测定技术主要有: 酵母双杂交 串联亲和纯化 质谱分析 蛋白质芯片 噬菌体显示,酵母双杂交系统,His, -gal,软件列表,Cytoscape简介,Cytoscape是是一种开源式的互作网络分析及 可视化的软件。它主要功能是展示和检索网络,可视化的方式整合指定数据所对应的网络。其中在连接protein-protein, protein-DNA, and genetic interactions等大型数据库方面很强大。软件拥有插座式结构,可以将所需要的功能以”插头”的形式插入软件实现功能。Graph(网络) Nodes(分子) edges(interactions),Cytoscape,非常感谢!,
Copyright © 2018-2021 Wenke99.com All rights reserved
工信部备案号:浙ICP备20026746号-2
公安局备案号:浙公网安备33038302330469号
本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。