1、人工智能技术在生物信息学中的应用研究,刘滨,内容,生物信息学概述生物知识DNA介绍蛋白质介绍人工智能和自然语言处理技术在生物信息学中的应用蛋白质序列和自然语言的相似性蛋白质相互作用位点预测远程同源性和折叠检测资源数据库工具,定义,Bioinformatics由来生物信息学之父Hwa A. Lim博士CompBio bioinformatique bio-informatics(bio/informatics) bioinformatics,意义,蛋白质序列,蛋白质结构,数据指数级增长增长的不平衡性,研究方向,DNA序列分析基因识别系统发生行为分析(进化树)蛋白质结构和功能预测基因芯片数据挖掘和
2、基因表达调控信息分析基因组功能预测支撑蛋白质组学和各种“组学”研究利用生物分子的结构信息参与创新药物的设计生物学虚拟实验模型的构件,DNA介绍,碱 基,碱 基 配 对,DNA的空间结构,蛋白质介绍,20种标准氨基酸的英文简写,肽键,本实验室的人工智能技术和自然语言处理技术在生物信息学中的应用,采用Ngram寻找蛋白白质序列和自然语言的相似性采用条件随即域(CRF)解决蛋白质相互作用位点预测问题。采用N-gram, binary profile和N-nary profile模型结合支持向量(SVM)机解决蛋白质远程同源性和折叠识别的问题。采用潜在语义分析(LSA)提高远程同源性检测效果。,蛋白质
3、序列和自然语言的相似性,蛋白质序列和自然语言的相似性,Dong et al. N-gram Statistics and Linguistic Featrues Analysis of Whole Genome Protein Sequences. Journal of Harbin Institute of Technology. 2004 在此论文中,探索了蛋白质和自然语言之间的关系。,N-gram,例子: SVYDA其中包含的3-gram为:SVYVYDYDA,N-gram 比较分析(人),N-gram 比较分析(褐家鼠),蛋白质组的Zipf定律分析,Zipf定律:对数形式的Zipf定律
4、为:,Zipf定律分析 (人),蛋白质序列和自然语言的关系,蛋白质相互作用位点预测,基于CRF的蛋白质相互作用位点预测,蛋白质相互作用位点预测研究内容蛋白质相互作用位点预测的意义为什么采用CRF进行相互作用位点预测CRF模型实验结果分析,蛋白质相互作用位点预测研究内容,相互作用位点预测的任务,A R N D C Q E G H I L K M F P S T,W Y V,.,0 1 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0,蛋白质相互作用位点预测的意义,识别相互作用的位点可以帮助构建蛋白质复合体的分子结构模型。与此同时,蛋白质相互作用位点的研究对理解生物体活动机制
5、、蛋白质功能研究、疾病诊断和药物研究有重要意义。,为什么采用CRF进行相互作用位点预测,蛋白质一级结构是一个序列传统的相互作用位点预测方法都是基于分类的方法,忽略了序列相邻的或者空间相邻的残基对于形成相互作用的接口具有相似的倾向。为了引入相邻残基间的相互影响的信息,采用了基于序列标记的方法(CRF)。,CRF模型,yi-1,yi,yi+1,X(x1,x2,xi-1,xi,xi+1,xn),链状条件随机域模型,转移特征,状态特征,特征定义,转移特征序列谱状态特征残基的溶剂可接触面积状态特征残基的保守性状态特征,实验结果分析:预测示例,SMC1HD:SCC1-C复合体,CRF预测结果,支持向量机预
6、测结果,正确位点,实验结果分析:预测示例,Ribosomal subunit 30S复合体,CRF预测结果,支持向量机预测结果,正确位点,实验结果分析:预测示例,Sreptococcal pyrogenic enterotoxin C(SpeC)复合体,CRF预测结果,支持向量机预测结果,正确位点,远程同源性和折叠检测,远程同源性和折叠检测研究内容,蛋白质可按其结构和进化关系进行分类。目前广泛使用SCOP 数据库定义的分类体系,包含三个主要层次:家族(family)、超家族(superfamily)和折叠(fold)。依靠蛋白质一级结构将其按照结构和进化关系进行分类。,意义,在比较建模和折叠识
7、别中,都需要识别和待测序列具有同源性的蛋白质作为模板。因此根据序列来探测蛋白质的同源性是蛋白质结构预测中的重要步骤。,蛋白质同源性检测方法示意图,蛋白质向量化方法,N-gramsBinary profilesN-nary profiles,Binary profiles,N-nary profiles,统计方法,统计方法可衡量特征t和类别c之间的相关性。特征t相对于类别c的 值定义如下,潜在语义分析(LSA),用于自动实现知识提取和表示的理论和方法,通过对大量的文本集进行统计分析,从中提取出词语的上下文使用含义。,采用LSA的可能性,实验结果分析(远程同源性检测结果),实验结果分析(折叠检测结
8、果),远程同源性检测结果(roc50分布),折叠检测结果(roc50分布),核酸序列数据库 (cont.),国际上权威的核酸序列数据库 (1)欧洲分子生物学实验室的EMBL http:/www.embl-heidelberg.de (2)美国生物技术信息中心的GenBank http:/www.ncbi.nlm.nih.gov/Web/Genbank/index.html (3)日本遗传研究所的DDBJ http:/www.ddbj.nig.ac.jp/人类基因组数据库GDB http:/www.gdb.org/ Ensembl http:/www.ensembl.org/ 其他模式生物基因组
9、数据库鼠基因组数据库 MGD http:/www.informatics.jax.org/ 酵母基因组数据库 SGD http:/genome-www.stanford.edu/Saccharomyces/表达序列标记数据库dbEST http:/www.ncbi.nlm.nih.gov/dbEST/序列标记位点数据库 dbSTS http:/www.ncbi.nlm.nih.gov/dbSTS/面向基因聚类数据库UniGene http:/www.ncbi.nlm.nih.gov/UniGene/,蛋白质序列数据库,PIRhttp:/pir.georgetown.edu/ SWISS-PRO
10、Thttp:/www.expasy.ch/sprot/sprot-top.html TrEMBLhttp:/www.ebi.ac.uk/trembl/ UniProtIncludes PIR, SWISS-PROT, TrEMBLhttp:/www.uniprot.org/,生物大分子结构数据库,PDBhttp:/www.rcsb.org/pdb/home/home.do MMDBhttp:/130.14.29.110/Structure/MMDB/mmdb.shtml,PDB,其他生物分子数据库,单碱基多态性数据库dbSNP http:/www3.ncbi.nlm.nih.gov/SNP/蛋
11、白质结构分类数据库SCOP http:/scop.mrc-lmb.cam.ac.uk/scop/蛋白质二级结构数据库DSSP http:/www.sander.embl-heidelberg.de/dssp/ 蛋白质同源序列比对数据库HSSP http:/www.sander.embl-heidelberg.de/hssp/人类遗传数据库OMIM http:/www.ncbi.nlm.nih.gov:80/entrez/query.fcgi?db=OMIM 蛋白质指纹数据库PRINTS http:/www.bioinf.man.ac.uk/dbbrowser/PRINTS/基因启动子数据库EP
12、D http:/www.epd.isb-sib.ch/转录调控区域数据库TRRD http:/wwwmgs.bionet.nsc.ru/mgs/gnw/trrd/ 转录因子数据库TRANSFAC http:/transfac.gbf.de/基因本体数据库GO http:/www.geneontology.org/ 生物、医学文献数据库PubMed http:/www.ncbi.nlm.nih.gov/人、鼠基因表达数据库BODYMAP http:/bodymap.ims.u-tokyo.ac.jp/序列模式数据库PROSITE http:/www.expasy.ch/prosite/目录数据库
13、DBCat http:/www.infobiogen.fr/services/dbcat/,其他资源,北京大学生物信息中心 (欧洲分子生物学网络EMBNet的中国节点和亚太生物信息学网络(APBioNet)中国节点)http:/ The Canadian Bioinformatics Resourcehttp:/www.cbr.nrc.ca/Human Genome Working Drafthttp:/genome.ucsc.edu/TIGR (The Institute for Genomics Research)http:/www.tigr.org/Celerahttp:/ Organi
14、sm specific information:Yeast: http:/genome-www.stanford.edu/Saccharomyces/Arabidopis: http:/www.tair.org/Mouse: http:/www.jax.org/Fruitfly: http:/www.fruitfly.org/Nematode: http:/www.wormbase.org/Nucleic Acids Research Database Issuehttp:/nar.oupjournals.org/ (First issue every year),常用软件,Database
15、interfacesGenbank/EMBL/DDBJ, Medline, SwissProt, PDB, Sequence alignmentBLAST, FASTAMultiple sequence alignmentClustal, MultAlin, DiAlign,PSI-BlastGene findingGenscan, GenomeScan, GeneMark, GRAILProtein Domain analysis and identificationpfam, BLOCKS, ProDom, Pattern Identification/CharacterizationGi
16、bbs Sampler, AlignACE, MEMEProtein Folding predictionPredictProtein, SwissModeler,研究中的一些体会,发现问题紧紧围绕实验室的技术在试验中发现问题,解决问题。Sun说过“没有失败的试验,只有放弃的试验”。,相关文章,Dong Qiwen, Wang Xiaolong, Lin Lei. N-gram Statistics and Linguistic Features Analysis of Whole Genome Protein Sequences. Journal of Harbin Institute of
17、 Technology. 2004. Li MH, Lin L, Wang XL, Liu T: Protein-protein interaction site prediction based on conditional random fields. Bioinformatics (2007). Dong QW., Wang XL. and Lin L.: Application of Latent Semantic Analysis to Protein Remote Homology Detection. Bioinformatics. 22, 285-290 (2006).Liu B, Lin L, Wang XL, Dong QW, Wang X: A discriminative method for protein remote homology detection based on N-nary profiles. BIRD08 (2008).孙之荣译,后基因组信息学 ,清华大学出版社.,谢谢!,欢迎您的批评指正,