ImageVerifierCode 换一换
格式:PPT , 页数:60 ,大小:2.52MB ,
资源ID:321840      下载积分:100 文钱
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,省得不是一点点
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wenke99.com/d-321840.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(人工智能技术za生物信息学与-D'TrendsBioinformatics,Inc.ppt)为本站会员(ga****84)主动上传,文客久久仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文客久久(发送邮件至hr@wenke99.com或直接QQ联系客服),我们立即给予删除!

人工智能技术za生物信息学与-D'TrendsBioinformatics,Inc.ppt

1、人工智能技术在生物信息学中的应用研究,刘滨,内容,生物信息学概述生物知识DNA介绍蛋白质介绍人工智能和自然语言处理技术在生物信息学中的应用蛋白质序列和自然语言的相似性蛋白质相互作用位点预测远程同源性和折叠检测资源数据库工具,定义,Bioinformatics由来生物信息学之父Hwa A. Lim博士CompBio bioinformatique bio-informatics(bio/informatics) bioinformatics,意义,蛋白质序列,蛋白质结构,数据指数级增长增长的不平衡性,研究方向,DNA序列分析基因识别系统发生行为分析(进化树)蛋白质结构和功能预测基因芯片数据挖掘和

2、基因表达调控信息分析基因组功能预测支撑蛋白质组学和各种“组学”研究利用生物分子的结构信息参与创新药物的设计生物学虚拟实验模型的构件,DNA介绍,碱 基,碱 基 配 对,DNA的空间结构,蛋白质介绍,20种标准氨基酸的英文简写,肽键,本实验室的人工智能技术和自然语言处理技术在生物信息学中的应用,采用Ngram寻找蛋白白质序列和自然语言的相似性采用条件随即域(CRF)解决蛋白质相互作用位点预测问题。采用N-gram, binary profile和N-nary profile模型结合支持向量(SVM)机解决蛋白质远程同源性和折叠识别的问题。采用潜在语义分析(LSA)提高远程同源性检测效果。,蛋白质

3、序列和自然语言的相似性,蛋白质序列和自然语言的相似性,Dong et al. N-gram Statistics and Linguistic Featrues Analysis of Whole Genome Protein Sequences. Journal of Harbin Institute of Technology. 2004 在此论文中,探索了蛋白质和自然语言之间的关系。,N-gram,例子: SVYDA其中包含的3-gram为:SVYVYDYDA,N-gram 比较分析(人),N-gram 比较分析(褐家鼠),蛋白质组的Zipf定律分析,Zipf定律:对数形式的Zipf定律

4、为:,Zipf定律分析 (人),蛋白质序列和自然语言的关系,蛋白质相互作用位点预测,基于CRF的蛋白质相互作用位点预测,蛋白质相互作用位点预测研究内容蛋白质相互作用位点预测的意义为什么采用CRF进行相互作用位点预测CRF模型实验结果分析,蛋白质相互作用位点预测研究内容,相互作用位点预测的任务,A R N D C Q E G H I L K M F P S T,W Y V,.,0 1 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0,蛋白质相互作用位点预测的意义,识别相互作用的位点可以帮助构建蛋白质复合体的分子结构模型。与此同时,蛋白质相互作用位点的研究对理解生物体活动机制

5、、蛋白质功能研究、疾病诊断和药物研究有重要意义。,为什么采用CRF进行相互作用位点预测,蛋白质一级结构是一个序列传统的相互作用位点预测方法都是基于分类的方法,忽略了序列相邻的或者空间相邻的残基对于形成相互作用的接口具有相似的倾向。为了引入相邻残基间的相互影响的信息,采用了基于序列标记的方法(CRF)。,CRF模型,yi-1,yi,yi+1,X(x1,x2,xi-1,xi,xi+1,xn),链状条件随机域模型,转移特征,状态特征,特征定义,转移特征序列谱状态特征残基的溶剂可接触面积状态特征残基的保守性状态特征,实验结果分析:预测示例,SMC1HD:SCC1-C复合体,CRF预测结果,支持向量机预

6、测结果,正确位点,实验结果分析:预测示例,Ribosomal subunit 30S复合体,CRF预测结果,支持向量机预测结果,正确位点,实验结果分析:预测示例,Sreptococcal pyrogenic enterotoxin C(SpeC)复合体,CRF预测结果,支持向量机预测结果,正确位点,远程同源性和折叠检测,远程同源性和折叠检测研究内容,蛋白质可按其结构和进化关系进行分类。目前广泛使用SCOP 数据库定义的分类体系,包含三个主要层次:家族(family)、超家族(superfamily)和折叠(fold)。依靠蛋白质一级结构将其按照结构和进化关系进行分类。,意义,在比较建模和折叠识

7、别中,都需要识别和待测序列具有同源性的蛋白质作为模板。因此根据序列来探测蛋白质的同源性是蛋白质结构预测中的重要步骤。,蛋白质同源性检测方法示意图,蛋白质向量化方法,N-gramsBinary profilesN-nary profiles,Binary profiles,N-nary profiles,统计方法,统计方法可衡量特征t和类别c之间的相关性。特征t相对于类别c的 值定义如下,潜在语义分析(LSA),用于自动实现知识提取和表示的理论和方法,通过对大量的文本集进行统计分析,从中提取出词语的上下文使用含义。,采用LSA的可能性,实验结果分析(远程同源性检测结果),实验结果分析(折叠检测结

8、果),远程同源性检测结果(roc50分布),折叠检测结果(roc50分布),核酸序列数据库 (cont.),国际上权威的核酸序列数据库 (1)欧洲分子生物学实验室的EMBL http:/www.embl-heidelberg.de (2)美国生物技术信息中心的GenBank http:/www.ncbi.nlm.nih.gov/Web/Genbank/index.html (3)日本遗传研究所的DDBJ http:/www.ddbj.nig.ac.jp/人类基因组数据库GDB http:/www.gdb.org/ Ensembl http:/www.ensembl.org/ 其他模式生物基因组

9、数据库鼠基因组数据库 MGD http:/www.informatics.jax.org/ 酵母基因组数据库 SGD http:/genome-www.stanford.edu/Saccharomyces/表达序列标记数据库dbEST http:/www.ncbi.nlm.nih.gov/dbEST/序列标记位点数据库 dbSTS http:/www.ncbi.nlm.nih.gov/dbSTS/面向基因聚类数据库UniGene http:/www.ncbi.nlm.nih.gov/UniGene/,蛋白质序列数据库,PIRhttp:/pir.georgetown.edu/ SWISS-PRO

10、Thttp:/www.expasy.ch/sprot/sprot-top.html TrEMBLhttp:/www.ebi.ac.uk/trembl/ UniProtIncludes PIR, SWISS-PROT, TrEMBLhttp:/www.uniprot.org/,生物大分子结构数据库,PDBhttp:/www.rcsb.org/pdb/home/home.do MMDBhttp:/130.14.29.110/Structure/MMDB/mmdb.shtml,PDB,其他生物分子数据库,单碱基多态性数据库dbSNP http:/www3.ncbi.nlm.nih.gov/SNP/蛋

11、白质结构分类数据库SCOP http:/scop.mrc-lmb.cam.ac.uk/scop/蛋白质二级结构数据库DSSP http:/www.sander.embl-heidelberg.de/dssp/ 蛋白质同源序列比对数据库HSSP http:/www.sander.embl-heidelberg.de/hssp/人类遗传数据库OMIM http:/www.ncbi.nlm.nih.gov:80/entrez/query.fcgi?db=OMIM 蛋白质指纹数据库PRINTS http:/www.bioinf.man.ac.uk/dbbrowser/PRINTS/基因启动子数据库EP

12、D http:/www.epd.isb-sib.ch/转录调控区域数据库TRRD http:/wwwmgs.bionet.nsc.ru/mgs/gnw/trrd/ 转录因子数据库TRANSFAC http:/transfac.gbf.de/基因本体数据库GO http:/www.geneontology.org/ 生物、医学文献数据库PubMed http:/www.ncbi.nlm.nih.gov/人、鼠基因表达数据库BODYMAP http:/bodymap.ims.u-tokyo.ac.jp/序列模式数据库PROSITE http:/www.expasy.ch/prosite/目录数据库

13、DBCat http:/www.infobiogen.fr/services/dbcat/,其他资源,北京大学生物信息中心 (欧洲分子生物学网络EMBNet的中国节点和亚太生物信息学网络(APBioNet)中国节点)http:/ The Canadian Bioinformatics Resourcehttp:/www.cbr.nrc.ca/Human Genome Working Drafthttp:/genome.ucsc.edu/TIGR (The Institute for Genomics Research)http:/www.tigr.org/Celerahttp:/ Organi

14、sm specific information:Yeast: http:/genome-www.stanford.edu/Saccharomyces/Arabidopis: http:/www.tair.org/Mouse: http:/www.jax.org/Fruitfly: http:/www.fruitfly.org/Nematode: http:/www.wormbase.org/Nucleic Acids Research Database Issuehttp:/nar.oupjournals.org/ (First issue every year),常用软件,Database

15、interfacesGenbank/EMBL/DDBJ, Medline, SwissProt, PDB, Sequence alignmentBLAST, FASTAMultiple sequence alignmentClustal, MultAlin, DiAlign,PSI-BlastGene findingGenscan, GenomeScan, GeneMark, GRAILProtein Domain analysis and identificationpfam, BLOCKS, ProDom, Pattern Identification/CharacterizationGi

16、bbs Sampler, AlignACE, MEMEProtein Folding predictionPredictProtein, SwissModeler,研究中的一些体会,发现问题紧紧围绕实验室的技术在试验中发现问题,解决问题。Sun说过“没有失败的试验,只有放弃的试验”。,相关文章,Dong Qiwen, Wang Xiaolong, Lin Lei. N-gram Statistics and Linguistic Features Analysis of Whole Genome Protein Sequences. Journal of Harbin Institute of

17、 Technology. 2004. Li MH, Lin L, Wang XL, Liu T: Protein-protein interaction site prediction based on conditional random fields. Bioinformatics (2007). Dong QW., Wang XL. and Lin L.: Application of Latent Semantic Analysis to Protein Remote Homology Detection. Bioinformatics. 22, 285-290 (2006).Liu B, Lin L, Wang XL, Dong QW, Wang X: A discriminative method for protein remote homology detection based on N-nary profiles. BIRD08 (2008).孙之荣译,后基因组信息学 ,清华大学出版社.,谢谢!,欢迎您的批评指正,

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。