1、基于 CASP10 的模板依赖型蛋白质结构预测方法研究进展摘要:CASP(critical assessment of structure prediction)是代表蛋白质结构预测领域的世界前沿水平的评比活动。模板依赖型蛋白质结构预测方法(Template-based modeling,TBM)可以进行蛋白质结构与功能关系分析及蛋白质分子设计。本文详细综述了 CASP10 中靶蛋白收集、预测模型收集和方法评估以及利用分析讨论得出的 CASP10 中最佳 5 种模板依赖型蛋白质结构预测方法,可对研究蛋白质组尤其是对那些通过实验难以测定结构的蛋白质分析则具有理论意义与实用价值。 关键词:CASP
2、10;蛋白质结构预测模型质量评估;模板依赖型蛋白质结构预测方法 Abstract:CASP is the assessment activities representative of the world advanced level of protein structure prediction . TBM can analyze the relationship between structure and function of proteins and protein molecular design. This paper reviews target protein collecti
3、on, prediction model collection , evaluation measures and the top5 template-based protein structure prediction methods through the analysis and discussion in CASP10. For proteome studying,especially for those who is difficult to determine the protein structure through experiment analysis has theoret
4、ical significance and practical value. Key words:CASP10; Evaluation measures ;Template-based modeling 迄今为止,蛋白质结构预测已经有近 40 年的历史,期间,人们提出了一系列预测方法,取得了丰硕成果。自 1994 年起每两年在美国加利福尼亚州举办一次蛋白质结构预测评比活动-CASP。它代表着蛋白质结构预测领域的世界前沿水平,深入客观的分析了当前的蛋白质结构预测技术水平, 认识到当前的方法能力与局限以及将来的发展方向。CASP 主要包括三部分:靶蛋白质序列的收集;蛋白质结构预测模型的收集;蛋白质
5、结构预测模型及预测方法的评估, 组织会议公布和讨论结果。 1 CASP10 简介 1.1 靶蛋白质序列的收集 在 2012 年举办的 CASP10 中,来自 23 个国家的 217 个预测小组以 114 个靶蛋白提交了超过 66000 个预测结果。所选择的靶蛋白被分为全型靶蛋白和仅服务器靶蛋白。全型靶蛋白是从具有挑战性的靶蛋白中选出来的典型例子,难度评估指标是基于启发式搜索和 PSI-BLAST 模板搜索得出的1。并且,在 CASP10 中,考虑到模板的共识增加了目标类别定义的特殊性,基于得分和 LOMETS 线串比对的共同判断将靶蛋白分为四组:平常组、简单组、困难组和极其困难组。 1.2 蛋
6、白质结构预测模型的收集 靶蛋白预测结果公布的时间内,各个靶蛋白通过自动分配系统自动转发给参赛服务器,追踪收集服务器的状况。经过初步评估服务器预测结果之后,预测小组提交较好的模型(GDT_TS2,3 60) 。在近三次的 CASP 比赛中,每次都有超多 100 个服务器小组参赛,服务器预测组数量超过了专家预测组,这反映了在结构预测方面自动化程度的提高。为了适应预测结果的庞大数据,修改了预测结果处理,存储,评估和可视化的原则。在 CASP10 中,接受五种不同格式的预测结果:三级结构 TS,残基-残基接触 RR,无序区域 DR,模型质量评估 QA,结合位点的预测 FN。 1.3 蛋白质结构预测模型
7、及方法的评估 CASP10 最大的变化是质量评估的分类,除了 QA 之外,稍微改变了 RR 和 DR 分类的规则,对每一个靶蛋白限制预测结果数目。在 DR 分类中,也开始要求残基的预测结果以无序态。CASP10 最明显的改进是类别的精化。首次出现一个预测小组能成功的提高所有靶蛋白预测的准确度。令人鼓舞的是,这个结果由分子动力学方法得出的,显示出更多的物理学衍生的方法可为模建做出贡献。辅助接触型模建新的分类结果证实这些方法可以与适量的额外信息产生更紧缺型的模型3。所有提交的模型以预测中心与独立评估小组磋商得出的相应实验参考结构为标准进行评估。为了进行评估,靶蛋白的结构序列,残基编号,链 ID 需
8、要与公布序列一致4。 RMSD5是 CASP 评估中第一个评估标准,并仍然使用。它很适合评估结构非常相似的两个蛋白之间的差异,但当模建的模型结果非常偏离实验结果的时候,就不是评估的最佳标准;GDT-TS5,6的开发是为了解决 RMSD 存在的不足之处,并在 CASP 中成为一个标准的评价标准。通过扩大阈值后的平均值,更能突出正确结构的得分;GDT-HA5,6是GDT-TS 改进版,缩小了阈值,更适合高同源性靶蛋白骨架精度评估;GDT-SC6用临近每一条侧链末端特征原子来比较残基位置,从而着重在侧链位置上来突出模型之间差异;GDT-like5,6评估模板和模型靶蛋白残基和相应的靶蛋白预测残基全局
9、相似性。这些得分,有序列依赖性性质,不能将模型与从与靶蛋白有高结构相似性的不正确构象区分开来,想要完全得出这些差异,用比对准确度得分 AL0(AL4) ,可以显示出比对正确对齐残基所占比例。 CAD7是比较基于两个结构残基-残基接触域不同的一种新的评估标准,得分可帮助找到物理学上更加合理的模型;LDDT8是另一种最新推出的无叠合评估标准,是基于模型全原子距离图谱和靶蛋白结构的比较。相似于 CAD 得分,非常适合在结构域动态存在的本地模型质量评估,仍然保留良好的相关性;SG4得分反映基于相应子结构局部相似性的模板-靶蛋白相似性,得出的是模型结构与靶蛋白球体一致的百分比;RPF9最初开发是用来评估
10、 NMR 结构准确度的,类似于 IDDT,它是一种基于比较模板和靶蛋白距离矩阵的无叠合标准。已经观察到 RPF 值和 GDT-TS/RMSD 值有一个很强的相关性。 Molprobity10得分可帮助评估者区分正确和扭曲立体化学特征的模型。整体得分包括四个部分来评估结构定义的准确性:冲突得分,旋转异构体异常得分,拉式构像图偏离得分,拉式构象图符合得分。 2 CASP10 中最佳模板依赖型蛋白质结构预测方法 目前,常用的蛋白结构预测方法分为三类:针对高相似序列的同源模建;针对较低序列相似性的折叠识别;不依赖于模板而利用物理学原理直接进行从头计算。但实际上由于现在大多数从头预测技术依赖结构数据库和
11、统计学原理及其他技术,为了研究需要,自 CASP7 开始,前两者合并为模板依赖型蛋白质结构预测方法。CASP10 选择 114 个蛋白,因为各种原因,最后只包括 96 个序列,112 个评估单元,其中有 111 个评估单元是基于模板模建的。 2.1 自动化的结构评估打分 CASP 允许每个提交者提供 5 个蛋白结构,每一个预测小组,只有命名为“模型 1”的模型用于排名。自动化结构评估分为如下四步:对提交的模型计算 GDT-HA,GDC-all,LDDT-15,RPF-9;接着,计算这些打分的平均值和标准偏差,用于计算 Z-得分;基于 Z-得分,对预测小组进行排名,用来消除差模型造成的罚分。Z-
12、得分小于-2.0 的直接排除;对每一评估单元计算,加入 UB 即最高得分后,重新计算 GDT-HA,GDC-all,LDDT-15,RPF-9 的平均值和标准偏差;同时当 Z 值小于-2 时,设置 Z 值等于-2。计算每一个度量的 Z-得分,并进行求和。计算了每个 AU 的得分,通过评估单元的数目分配综合得分。而 Z-得分只能用于确定前 25 组,不能用来确定排名,还需配对 T 检验进行重新排名,同时还对模型选择对结果的影响做了分析。经过分析,CASP10 评估认证 Zhang-Server,QUARK,PMS, LEEcon,Zhang 作为基于模板模建最佳预测小组11。 2.2 最佳模板依
13、赖型蛋白质结构预测方法方法简介 QUARK12最开始是开发作为无需用到全局模板结构的蛋白质从头结构预测的,开始于从非冗余 PDB 结构库用无缝线串法得到的连续的分散片段集合。最后,这些片段被运用复制-交换蒙特卡洛模拟由距离轮廓和基于物理学和经验诱发复合指导下组装成全长模型。在新的开发中,从 LOMETS 线串比对提取的空间限制被用于协助 QUARK 结构重组模拟。 Zhang 和 Zhang-Server13方法是由 I-TASSER 与 QUARK 结合相互作用开发的。本质上是相同的,不同的是 Zhang 是采用的 CASP10 服务器上的模板,而后者采用的是内部线串方法得到的模板。整体结构
14、预测包括以下三个基本步骤:模型识别, 目标序列来自非冗余 PDB 结构库,用LOMETS 来确定合适的模板比对;基于模板和从头结构组装;模型的选择与改进。运用 7-MQAP 方案来选择模型,包括 I-TASSER 的 C-得分,TM-得分,五个统计指标(RW,RWplus, Dfire,Dope 和 verify3D) 。最后,7 个 MQAP 得分总和作为 MQAP 一致性得分,低一致性得分的模型最终被选择出来用于提交。 PMS14是基于能量函数和蛋白质 3D 模型质量评估的全局优化方法,在侧链原子细节模建以及主链结构模建的准确性来说相当成功。PMS 对于蛋白质的 3D 模型的模建,开发了一
15、种新的洛伦兹型能量项取代在MODELLER 中使用的高斯型或样条函数用于结构约束限制。利用构象空间退火来优化能量函数。对于模板选择和比对,利用随机森林算法开发了一种新的质量评估方法。在折叠识别步骤中,质量评估方法被用于重新排序由 FOLDFINDER 产生的候选模板。 LEEcon15相似于 PMS,但是考虑到从 FOLDFINDER 获得其他模板。Leecon 模建是利用 SERVER 预测方法即从 CASP10 发布的所有 SERVER 模型最大集群中选择模型的一致性方法。进行 SERVER 模型的结构集群,并确定出最大的集群。对于序列查询,FOLDFINDER 用域从 PDB 中识别最佳
16、模板。排除掉与模板有几乎相同的结构(TM-得分0.975)和很不相似的结构(TM-得分0.65) 。基于序列得分和基于 3D 得分结合起来,确定重心模板和次级可选模板。模板合并生成一个模板列表,对于每个模板列表,进行多重序列比对、侧链构架、质量评估和侧链重建。 3 总结和展望 掌握蛋白质的结构信息对于研究蛋白质的功能及作用机制具有重要意义。对于蛋白质结构和功能, 虽然可以通过实验的方法来实现, 但当前的蛋白检测技术水平还远远跟不上由“人类基因组计划”不断发展所产生的海量生物信息,所以利用蛋白质预测技术协助实验科学变得尤为重要。CASP 作为蛋白质结构预测领域的世界前沿水平代表,可以客观的反映蛋
17、白质结构预测技术水平。CASP10 所得到的最佳 5 种模板依赖型蛋白质结构预测方法:Zhang-Server,QUARK, PMS,LEEcon,Zhang 可对研究蛋白质组尤其是对那些通过实验难以测定结构的蛋白质分析则具有理论意义与实用价值。并且首次出现一个由分子动力学方法得出的预测小组能成功的提高所有靶蛋白的准确度,显示出更多的物理学衍生的方法可为模建做出贡献。总之,药物生物信息学对蛋白结构和功能的预测与实验科学的发展结合起来,将给蛋白质设计、药物设计等生命科学领域提供巨大的帮助。 参考文献: 1Moult J, Fidelis K, Kryshtafovych A, et al. Cr
18、itical assessment of methods of protein structure prediction (CASP)-round xJ. Proteins: Structure, Function, and Bioinformatics, 2014, 82(S2): 1-6. 2Zemla A. LGA: a method for finding 3D similarities in protein structuresJ. Nucleic acids research, 2003, 31(13):3370-3374. 3Kryshtafovych A, Fidelis K,
19、 Moult J. CASP10 results compared to those of previous CASP experimentsJ. Proteins: Structure, Function, and Bioinformatics, 2014, 82(S2): 164-174. 4Kryshtafovych A, Monastyrskyy B, Fidelis K. CASP prediction center infrastructure and evaluation measures in CASP10 and CASP ROLLJ. Proteins: Structure
20、, Function, and Bioinformatics, 2014, 82(S2): 7-13. 5Moult J. A decade of CASP: progress, bottlenecks and prognosis in protein structure predictionJ. Current opinion in structural biology, 2005, 15(3): 285-289. 6Monastyrskyy B, Kryshtafovych A, Moult J, et al. Assessment of protein disorder region p
21、redictions in CASP10J. Proteins: Structure, Function, and Bioinformatics, 2014, 82(S2): 127-137. 7Olechnovi? K, Kulberkyt? E, Venclovas. CAD?score: A new contact area difference?based function for evaluation of protein structural modelsJ. Proteins: Structure, Function, and Bioinformatics, 2013, 81(1
22、): 149-162. 8Mariani V, Biasini M, Barbato A, et al. lDDT: a local superposition-free score for comparing protein structures and models using distance difference testsJ. Bioinformatics, 2013, 29(21): 2722-2728. 9Huang Y J, Powers R, Montelione G T. Protein NMR recall, precision, and F-measure scores
23、 (RPF scores): structure quality assessment measures based on information retrieval statisticsJ. Journal of the American Chemical Society, 2005, 127(6): 1665-1674. 10Chen V B, Arendall W B, Headd J J, et al. MolProbity: all-atom structure validation for macromolecular crystallographyJ. Acta Crystall
24、ographica Section D: Biological Crystallography, 2009, 66(1): 12-21. 11Huang Y J, Mao B, Aramini J M, et al. Assessment of template?based protein structure predictions in CASP10J. Proteins: Structure, Function, and Bioinformatics, 2014, 82(S2): 43-56. 12Xu D,Zhang Y.Ab initio protein structure assem
25、bly using continuous structure fragments and optimized knowledge?based force fieldJ. Proteins: Structure,Function,and Bioinformatics,2012, 80(7):1715-1735. 13Xu D, Zhang J, Roy A, et al. Automated protein structure modeling in CASP9 by I?TASSER pipeline combined with QUARK?based ab initio folding an
26、d FG?MD?based structure refinementJ. Proteins: Structure, Function, and Bioinformatics, 2011, 79(S10): 147-160. 14Joo K, Lee J, Sim S, et al. Protein structure modeling for CASP10 by multiple layers of global optimizationJ. Proteins: Structure, Function, and Bioinformatics, 2014, 82(S2): 188-195. 15Lee J, Gross S P, Lee J. Modularity optimization by conformational space annealingJ. Physical Review E, 2012, 85(5): 056702. 编辑/成森