1、基于空间约束的蛋白质结构预测方法概述摘要:基于空间约束的蛋白质结构预测方法是一种以已知结构为模板预测蛋白质结构的方法。其中,它提取了模板结构中的同源约束,结合力场中的立体化学约束,作为优化初始结构的条件,从而对初始结构进行调整,最终得到模型。本文主要综述了基于空间约束的蛋白质结构预测方法的原理,所涉及的空间约束,以及应用与软件。 关键词:蛋白质结构预测;空间约束;同源模建 Abstract:Comparative modeling based on spare restraints is one of protein structure prediction methods which pre
2、dict the three-dimensional structure of a given protein sequence based primarily on its alignment to one or more protein of known structure. This method uses homology-derived restraints from template protein and stereochemical restraints from force field as constraints to optimize initial structure,
3、 and finally constructs the model. This article reviews the theory of comparative modeling based on spare restraints, the spare restraints and relevant applications and softwares. Key words:Protein structure prediction; Spare restraints; Comparative modeling 近些年来,基因组计划为我们提供了大量的蛋白质序列。我们只有理解了新蛋白质的功能,基
4、因组计划才能真正实现它的意义。为了描述,理解和操控蛋白质的功能,就必须首先确定蛋白质的结构。然而,实验方法测定蛋白质结构代价很高且费时费力。由于实验方法确定蛋白质结构存在缺陷和不足,蛋白质结构确定的速度跟不上序列测定的速度,且差距在不断扩大。因此,完全依靠实验方法确定蛋白质结构已经不能满足现实的需求1。上世纪 70 年代,人们发现蛋白质三级结构是由其一级序列决定的,这也就意味着可以从蛋白质序列中获取蛋白质三级结构的信息。这一发现为计算机预测蛋白质结构提供了理论依据。经过了 40余年的发展,计算机预测蛋白质结构的技术日趋成熟。其中,同源模建方法是一种以已知结构的蛋白质为模板预测目标蛋白质结构的方
5、法。因为一级序列的相似性越高,两个蛋白质的三级结构的相似性也越高。 同源模建方法是从模板序列和目标序列的比对开始的。合适的模板是同源模建得到好模型的基础。同源模建方法一般分为四个步骤:序列比对,模建结构,结构优化和结构评估2。 不同的同源模建方法的区别主要体现在第二步模建目标模型上。最传统的也是使用最广泛的模建方法是刚体装配法。此方法使用从已知结构中获得的刚体结构信息组装模型。基于这类同源模建方法的程序有COMPOSER。另一类方法就是片段匹配法。片段匹配法,又称坐标重建法,是基于发现大部分的蛋白质结构片段都是聚类到大约 100 个结构分组中。搜索并确定其余原子坐标的方法一般是搜索所有已知结构
6、或者是基于能量函数的构象搜索。第三类同源模建方法是基于空间约束的同源模建方法。由于这种基于约束的模建方法可以使用关于目标序列的各种不同的信息,所以它是所有同源模建方法中最有前途的3。 1 基于空间约束的同源模建方法 基于空间约束的同源模建方法通过目标序列与模板序列的比对结果,得到目标序列结构上的许多约束或者限制。这些约束通常是通过假设目标序列和模板序列上的相对应的距离和角度是相似的得到的。空间约束除了这些同源约束还包括:立体化学约束。然后使用空间约束来优化模型的初始结构,使模型结构对这些空间约束的违背最小,从而得到最终的模型结构。模型的初始结构可以通过距离几何法或真实空间优化法来实现。然后空间
7、约束和力场数据项都被整合到一个客观函数中去。最后,在笛卡尔坐标系中当客观函数的函数值最小时,得到模型的最终结构。基于空间约束的同源模建方法的优势之一是不同来源的约束和限制都很容易被添加到同源约束中去。同样,基于空间约束的同源模建方法的进一步的发展也是因为各种约束的加入,使得这种方法更加完善。当然,好的优化算法的选择也是改善这种方法的途径4。 1.1 距离约束和距离几何法 最早的基于约束的蛋白质结构预测方法使用的约束一般都是距离约束,这些距离约束数据都是来自实验检测结果。PerJ Kraulis 等人5提出了一种使用核磁共振数据确定蛋白质结构的方法,其中使用了蛋白质原子间的距离数据。Hirosh
8、i Wako 等人6应用距离约束法预测了牛胰蛋白酶抑制剂的三级结构。其中,他们考虑了氨基酸残基的亲疏水性,并且设定了螺旋与延伸结构和片层结构中的平均距离,合并了特定的半胱氨酸残基之间的二硫键的位置信息和五个特殊的残基对之间的确切距离信息。他们定义了一个客观函数,通过使用这一系列的距离约束数据,使客观函数最小化,从而确定目标蛋白质的最终结构。其中使用的距离约束数据都是通过对 14 个已知结构的蛋白质的距离数据的统计分析总结得到的。 距离约束数据方便使用分子内部坐标表示,分子内部坐标仅仅体现保守结构特征的相对位置,而忽略分子的位置和方向。其他模建研究表明使用距离坐标系统处理分子内部结构约束问题非常
9、有用。因为欧几里得变换群中的每一个几何特征不变量都可以用距离来表示,所以距离坐标系统可以替代笛卡尔坐标。笛卡尔坐标可以通过程序重新恢复。Havel TF 等人7结合使用核磁共振数据和距离几何法确定了胰蛋白酶抑制剂的结构,并证明了使用该方法计算蛋白质的完整结构是可行的。使用距离几何法解决同源模建问题,就是一个确定具有同源性的蛋白质中结构相似的原子的分子内距离的过程。Andras Aszodi 等人8设计了一种基于距离几何法的同源模建方法,这种方法能在相对较短的时间内得到大量的低分辨率的片段,它是通过一系列的嵌入折叠整个简化的模型,也就是把结构投射到逐渐减小的维度的欧几里德空间中去。 1.2 空间
10、约束和真实空间优化法 基于空间约束的同源模建方法逐渐被人们认可,越来越多的其他类型的约束信息被添加到方法中来。这也使得这种方法越来越完善。Andrej Sali 等人9开发了一种整合了多种空间约束的同源模建方法,其中包含的空间约束有 C 原子之间的距离约束,NO 原子之间的距离约束,立体化学约束,主链二面角约束以及侧链二面角约束。这种方法的基本步骤是,首先,根据模板序列与目标序列的比对结果,从模板结构中提取相对应的同源约束,这些约束的展现形式都是概率密度函数,也就是每一个同源约束就产生一个概率密度函数;然后通过多目标函数法和共轭梯度算法来对得到的概率密度函数进行优化,得到最优解,即模型结构信息
11、。 C 原子之间的距离约束,也就是约束目标蛋白质中两个不同氨基酸残基的 C 原子之间的距离的概率密度函数。这个概率密度函数也就是一个高斯分布,其中高斯分布的平均值是模板结构中对应残基的 C 原子之间的距离,标准差是通过已知结构中 C 原子之间的距离;两个比对序列的部分同源性;已知结构中这段距离两端的残基的部分溶剂亲和性;距离两端的残基离空位的平均距离四个参数根据相应的计算公式得到的。立体化学约束是根据标准力场数据对目标蛋白质中的原子位置的约束。其中涉及了原子距离,角度,二面角,所以立体化学约束函数也有很多种,比如高斯函数,余弦函数等等。构建这些约束函数所需要的参数也是来源于力场数据。蛋白质中主
12、链骨架原子之间的键形成的二面角称为主链二面角。根据组成二面角的原子类别的不同,可以将主链二面角分为三类。其中,由于二面角位置的特殊性,第三类主链二面角的变化比较单一。正是这样,前两类二面角的变化就成了讨论主链二面角的关键。根据前两类主链二面角的变化,主链构象分为 A,B,P,G,L和 E 六个类别。并且,每个主链二面角构象类别中的二面角分布都是一个高斯分布,这样每一个分布都可以用一个概率密度函数表示出来。在考虑目标序列中固定部位的主链构象的约束时,就使用六个类别的概率密度函数的一个加权和来表示。其中,每一个类别高斯函数的平均值,标准差和权重都是通过统计分析得到的。Andrej Sali 等人1
13、0使用了一个含有 1000 个蛋白质的数据集,统计分析了不同残基类型情况下的主链二面角的类别分布,得到了每一个主链构象类别的高斯函数的平均值,标准差和权重三个参数的数据。 1.3 其他约束 同源模建方法得到的模型的可靠性很大程度上依赖于目标序列与模板序列的序列一致性。蛋白质超家族成员之间存在的结构差异不仅体现在空位区域上而且还体现在二级结构位置的移位。这就造成了同源模建方法的一个内在局限性。Saikat Chakrabarti 等人11添加远距离模板中的保守片段作为额外的空间约束,在一定程度上改善了基于空间约束的同源模建方法的这一问题。他们使用主流的结构化片段的数据库 SMoS,这个数据库整个
14、了许多高保守结构的残基片段。他们利用了数据库中的残基片段的结构信息,将这些结构信息作为额外约束信息添加到同源模建方法中去。BooJALA V B Reddy 等人12将二级结构信息和氨基酸长距离接触图添加到基于空间约束的蛋白质结构预测的方法中,改善了含有高比例螺旋或折叠结构的蛋白质的预测精度。 2 软件与应用 MODELLER 是一款同源模建软件13。其中,使用的原理就是基于空间约束的蛋白质结构预测。简而言之,软件的输入项是模板序列与目标序列的比对结果,模板序列的结构文件和脚本文件。然后,MODELLER 就能自动计算出目标序列中所有非氢原子的坐标。MODELLER 软件中涉及到的空间约束包括
15、:同源约束,立体化学约束,统计约束和其他额外添加的约束。软件没有界面交互系统,只能通过脚本进行使用。 MODWEB 是一种自动同源模建的网上服务器14。它接收一条以上的FASTA 序列,然后在 PDB 数据库中搜索最可行的模板,并计算出提交的目标序列的模型。MODWEB 使用的原理与 MODELLER 类似,只是在两个步骤进行了改进。它使用的模板搜索方法是序列结构比对,搜索使用的模板也不止一个。对于单个提交序列,MODWEB 是通过邮件的形式返回结果。如果提交的序列不止一条或者包含结构时,返回的结果将被作为一个单独的数据集添加到蛋白质模型的相关数据集中。 3 展望 随着越来越多的蛋白质序列的三
16、级结构被测定,同源模建的使用范围也不断扩大。其中,基于空间约束的同源模建方法是在所有同源模建方法中表现最好的方法。目前,对基于空间约束的同源模建方法的研究也越来越深入。许多额外的实验数据约束被添加到方法中来,比如,核磁共振数据,交联试验数据,荧光光谱实验数据,微电子图像重建实验数据和定点突变实验数据。实验数据约束的添加使基于空间约束的同源模建方法的预测结果更加的合理。 总之,基于空间约束的同源模建方法具有能添加多种来源的数据约束的特点,是同源模建方法中与实验数据联系最深的方法,也意味着是最有潜力的方法。 参考文献: 1 Yang Z, Jeffrey S. The protein struct
17、ure prediction problem could be solved using the current PDB libraryJ.Proceedings of the National Academy of Sciences of the United States of America, 2005, 102(4):1029-1034. 2 Bino, John, Andrej, Sali. Comparative protein structure modeling by iterative alignment, model building and model assessmen
18、tJ.Nucleic Acids Research, 2003, 31(14):3982-3992. 3 Mart-Renom M A, Stuart A C, Fiser A, et al. Comparative protein structure modeling of genes and genomesJ.Annual Review of Biophysics & Biomolecular Structure, 2000, 29(29):27-30. 4 Snchez R, 07ali A. Comparative protein structure modeling as an op
19、timization problemJ. Journal of Molecular Structure Theochem, 1997:489-496. 5 Krauli P J, Jones T A. Determination of three-dimensional protein structures from nuclear magnetic resonance data using fragments of known structuresJ. Proteins Structure Function & Bioinformatics, 1987, 2(3):188-201. 6 Wa
20、ko H, Scheraga H A. Distance-constraint approach to protein folding. I. Statistical analysis of protein conformations in terms of distances between residuesJ. Journal of Protein Chemistry, 1982, 1(1):5-45. 7 Havel T F, Wthrich K. An evaluation of the combined use of nuclear magnetic resonance and di
21、stance geometry for the determination of protein conformations in solutionJ. Journal of Molecular Biology, 1985, 182(2):281-294. 8 Andrs Aszdi, Robin EJ Munro, William R Taylor. Distance geometry based comparative modellingJ. Fold Des, 1997, 2(3):S3-S6. 9 Andrej Sali, Blundell T L. Comparative prote
22、in modelling by satisfaction of spatial restraintsJ. Journal of Molecular Biology, 1993, 234(3):779-815. 10 ?Ali, Andrej, Overington J P. Derivation of rules for comparative protein modeling from a database of protein structure alignmentsJ. Protein Science A Publication of the Protein Society, 1994,
23、 3(9):1582-1596. 11 Chakrabarti S, John J, Sowdhamini R. Improvement of comparative modeling by the application of conserved motifs amongst distantly related proteins as additional restraintsJ. Journal of Molecular Modeling, 2004, 10(1):69-75. 12 Reddy B V B, Kaznessis Y N. Use of secondary structur
24、al information and C -C distance restraints to model protein structures with MODELLERJ. Journal of Biosciences, 2007, 32(1 Supplement):929-936. 13 Eswar N, Eramian D, Webb B, et al. Protein Structure Modeling with MODELLERM.Structural ProteomicsHumana Press, 2008:145-159. 14 Eswar N. Tools for comparative protein structure modeling and analysisJ. Nucleic Acids Research, 2003, 31(13):3375-3380. 编辑/倪冰冰