2010年工作规划.ppt

上传人:ga****84 文档编号:428186 上传时间:2018-10-04 格式:PPT 页数:51 大小:6.79MB
下载 相关 举报
2010年工作规划.ppt_第1页
第1页 / 共51页
2010年工作规划.ppt_第2页
第2页 / 共51页
2010年工作规划.ppt_第3页
第3页 / 共51页
2010年工作规划.ppt_第4页
第4页 / 共51页
2010年工作规划.ppt_第5页
第5页 / 共51页
点击查看更多>>
资源描述

1、从pLink1到pLink2更快、更准的交联肽段鉴定引擎,刘超中科院计算所 pFind团队,2016第四届中国计算蛋白质组学研讨会 中国大连,提纲,背景与问题算法与软件现状与未来,CNCP 2016,2,背景,为什么要鉴定交联肽段蛋白质-蛋白质相互作用蛋白质结构,3,CNCP 2016,以pLink1(Yang et al, 2012)应用为例,使用pLink1发表的文章29篇Nature 2篇Science 1篇Nature Communications 1篇Nature Structural & Molecular Biology 3篇,4,pLink1,CNCP 2016,pLink1下

2、载591套(2016.5.31),5,168,173,17,145,3,5,15,CNCP 2016,交联鉴定面临三大挑战,6,01样品复杂,02搜索空间大,03谱图复杂,CNCP 2016,交联鉴定面临三大挑战,7,01样品复杂,02搜索空间大,03谱图复杂,常规候选肽3.4106,交联候选肽5.351011,候选肽数目扩大10万倍,人类数据库,CNCP 2016,三个解决方案,8,01 引入标记技术(湿)一级谱图中有轻、重同位素峰簇对儿的认为是交联肽段,CNCP 2016,三个解决方案,9,01 引入标记技术(湿)一级谱图中有轻、重同位素峰簇对儿的认为是交联肽段,02引入可碎裂交联剂(湿)

3、搜索交联肽段n2 搜索两条单肽2n,CNCP 2016,02引入可碎裂交联剂(湿)搜索交联肽段n2 搜索两条单肽2n,三个解决方案,10,01 引入标记技术(湿)一级谱图中有轻、重同位素峰簇对儿的认为是交联肽段,03使用高效的索引技术(干)?,CNCP 2016,提纲,背景与问题算法与软件现状与未来,11,CNCP 2016,技术,12,20082010,CNCP 2016,技术,13,之前,之后,CNCP 2016,2012,FDR估计,NU:NF:NT 2: 1 : 1FDR=(NU-NF)/NT,14,CNCP 2016,从pLink1到pLink2,15,开始,RAW?,格式转换,蛋白

4、质数据库,谱图预处理,候选单肽,开放式索引,E-value,估计FDR,报告结果,结束,速度,精度,否,是,pLink1,候选双肽,CNCP 2016,从pLink1到pLink2,16,开始,RAW?,格式转换,蛋白质数据库,谱图预处理,搜索肽段,搜索肽段,离子索引,速度,精度,No,Yes,肽段索引,特征提取,机器学习,估计FDR,报告结果,结束,改进1,改进2,改进3,CNCP 2016,pLink2,谱图预处理 确定母离子单同位素峰,单肽 双肽(交联肽段),17,Yuan, Z.F., et al., pParse: a method for accurate determinatio

5、n of monoisotopic peaks in high-resolution mass spectra. Proteomics, 2011.,CNCP 2016,单同位素峰更低同位素峰数目更多,从pLink1到pLink2:搜索空间更精准,改进1 pLink1 pLink2母离子质量误差正负5 Da 母离子质量误差正负20 ppm,18,pLink1,pLink2,pLink1的搜索空间大,二级谱图中记录的单同位素峰,单同位素峰,CNCP 2016,从pLink1到pLink2:搜索空间更精准,改进1 pLink1 pLink2母离子质量误差正负5 Da 母离子质量误差正负20 ppm

6、,19,pLink1,pLink2,pLink2的搜索空间,CNCP 2016,Yuan, Z.F., et al., pParse: a method for accurate determination of monoisotopic peaks in high-resolution mass spectra. Proteomics, 2011.,改进2:从肽段索引到离子索引,20,SequenceDatabase,Pre-scoring,搜索两个肽段两两组合 搜索空间巨大,对一个肽段的开放式搜索 搜索空间可控,CNCP 2016,改进2:从肽段索引到离子索引,21,Combining a

7、nd Refined Scoring,SequenceDatabase,Pre-scoring,对一个肽段的开放式搜索 搜索空间可控,保留可信的单肽进行两两组合 搜索空间较小,CNCP 2016,改进2:从肽段索引到离子索引,22,实际谱图,来自数据库的理论肽段理论谱图,肽段间匹配,需要匹配所有的理论谱图,无效匹配多,肽段索引,耗时:11毫秒结果:匹配谱峰数目为0,耗时:10毫秒结果:匹配谱峰数目为0,耗时:9 毫秒结果:匹配谱峰数目为3,无效匹配,无效匹配,有效匹配,CNCP 2016,改进2:从肽段索引到离子索引(Ion-Index),针对离子建立索引一个二级谱图的谱峰就是一个离子离子与离

8、子匹配,23,离子间匹配,跳过肽段直接进行有效匹配,离子索引,实际谱图,来自数据库的理论肽段理论谱图,不在搜索空间内,不在搜索空间内,CNCP 2016,Chi Hao et al. Journal of Proteomics. 2015,改进3:机器学习(11维特征),24,CNCP 2016,改进3:机器学习(SVM在线训练),pLink1计算E-Value耗时长适应性弱pLink2使用机器学习(SVM)耗时短适应性强,25,开始,特征提取,迭代,终止,选择训练样本,SVM训练模型,重打分,重排序,达到终止条件,CNCP 2016,pLink2与pLink1对比,速度pLink2提升10到

9、20倍精度pLink2交联肽段数目提升50%,26,CNCP 2016,我们在10余套数据上进行了对比,pLink2与pLink1对比,pLink1 与 pLink2 鉴定不一致的主要来自两类:1、67%,鉴定结果母离子不一致。(改进1:谱图预处理)2、20%,肽谱匹配一样,但未通过FDR过滤。(改进2:机器学习),27,CNCP 2016,pLink2与Kojak对比,28,Michael R. Hoopmann,Robert L. Moritz,CNCP 2016,Kojak的流程与pLink1类似,29,开始,RAW?,格式转换,蛋白质数据库,谱图预处理,候选单肽,开放式索引,E-val

10、ue,估计FDR,报告结果,结束,速度,精度,否,是,pLink1,候选双肽,500,CNCP 2016,Kojak的流程与pLink1类似,30,开始,RAW?,格式转换,蛋白质数据库,谱图预处理,候选单肽,开放式索引,机器学习Percolator,估计FDR,报告结果,结束,速度,精度,否,是,Kojak,候选双肽,250,CNCP 2016,测试数据集1,合成肽段38条(答案),两两组合,使用BS3交联与“答案”一致的高可信谱图1030张(正确结果);Kojak分析可以得到869张1047张母离子质量增加50ppm的谱图(错误结果);,31,pLink,38条合成肽段,1030张,CNC

11、P 2016,手工验证,搜索Human库,增大搜索空间,测试软件的速度和精度,32,2077张MSMS,pLink2,Kojak,38条合成肽段Swissprot Human(20197 entries),CNCP 2016,pLink2与Kojak:速度,33,pLink2,Kojak,CNCP 2016,使用64位的PC进行测试,Intel Xeon E5-2670(主频2.6GHz ),4线程“2000张二级谱图”“人库” “10分钟”,34,CNCP 2016,使用64位的PC进行测试,Intel Xeon E5-2670(主频2.6GHz ),4线程“2000张二级谱图”“人库”“1

12、0分钟”“1万张二级谱图”“人库”“约50分钟”,35,CNCP 2016,pLink2与Kojak:精度,36,Kojak,pLink2,77 276 739,谱图层次FDR小于等于5%,CNCP 2016,pLink2与Kojak:精度,37,Kojak,pLink2,77 276 7398 276 70210% 100% 95%,谱图层次FDR小于等于5% 紫色:与正确结果一致的肽谱匹配,CNCP 2016,测试数据集二:15N代谢标记,候选肽1:GNTSLYDHNNNTSDYSK,候选肽2:QSYMDAMLDPMAWMGK,Zhong, H., S.L. Marcus, and L.

13、Li, Two-dimensional mass spectra generated from the analysis of 15N-labeled and unlabeled peptides for efficient protein identification and de novo peptide sequencing. J Proteome Res, 2004. 3(6): p. 1155-63.,CNCP 2016,38,精度:15N代谢标记,候选肽1:GNTSLYDHNNNTSDYSK,1:1,C79H116N24O22S0,24 Da,候选肽2:QSYMDAMLDPMAWM

14、GK,C81H123N19O24S4,19 Da,正确的鉴定结果,错误的鉴定结果,NaN,CNCP 2016,39,精度 - 15N代谢标记,Kojak Both pLink 2,644 1738 1738,28.3% 2.4% 4.7%,Kojak Both pLink 2,134 279 251,47.8% 1.8% 11.2%,复杂样品:15N labeled E. coli,FDR小于等于5%,只看交联结果紫色:NaN比值的比例,即没有一级谱图轻、重信号对儿证据的结果比例,谱图层次,肽段层次,CNCP 2016,40,干、湿技术结合:pLink2支持可碎裂交联,特征峰减少搜索空间减少谱

15、图数目,41,CNCP 2016,干、湿技术结合:pLink2支持可碎裂交联,特征峰减少搜索空间可以得到单肽的母离子质量,开放式搜索 限定式搜索减少谱图数目没有特征峰的是单肽,有特征峰的为交联肽段,42,CNCP 2016,pLink2支持可碎裂交联,43,10524MSMS,716MSMS,含有特征峰,pLink2DSSO,pLinkIon-Index,流程1,流程2,流程3,利用特征峰信息搜索两条单肽高效的限定式搜索,不利用特征峰信息搜索双肽开放式搜索:离子索引,Liu, F., et al., Nat Methods, 2015. 12(12): p. 1179-84.,CNCP 201

16、6,干、湿技术结合:速度提升160倍,44,缩减谱图数目,缩减搜索空间,Intel Xeon E5-2670(主频2.6GHz ),单线程,与Kojak对比: “四线程”“1万张二级谱图”“人库”“约50分钟”干、湿技术结合:“单线程”“1万张二级谱图”“人库”“不到2分钟”,CNCP 2016,总结,在这个报告之前“搜索人库的交联肽段”?,45,CNCP 2016,总结,在这个报告之前“搜索人库的交联肽段”?,46,CNCP 2016,总结,在这个报告之后“搜索人库的交联肽段”?,47,CNCP 2016,总结,速度干:使用多线程、离子索引等技术“1万张二级谱图”“人库”“约50分钟”干、湿

17、结合:pLink支持可碎裂交联“1万张二级谱图”“人库”“不到2分钟”精度在标注集和标记数据集上,可信度较高建议:可以考虑下“富集”问题(Tan et al. 2016),48,CNCP 2016,致谢,49,董梦秋实验室Cross-linkER杨兵 博士朱明 博士卢珊 博士谭丹 博士董梦秋 研究员,CNCP 2016,致谢,50,pFind团队pLinkER吴妍洁 硕士 樊盛博 博士孟佳明 硕士尹吉澧 硕士贺思敏 研究员,CNCP 2016,谢谢!,访问http:/ v1.0 问世,发布pTop 、pQuant,pFind 第一次实战发布pNovo,发布pLink1,发布pFind 3 pLink 2pGlycopAnno,CNCP 2016,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文资料库 > 毕业论文

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。