1、Protein Tertiary Structure PredictionJingfen ZhangDigital Biology LaboratoryComputer Science DepartmentUniversity of Missouri 2012-11- 15Outlinel 基本概念与基础知识l 方法论,主要问题l 问题的描述及研究里程碑l CASP基本概念与基础知识C 主链 Backbone 侧链 Sidechain1D sequence 3D structure 2D structure三维非线性局部结构稳定的氢键和 van der Waals相互作用三维结构的表示法1)
2、欧式空间 o 原子坐标 Coordinates (x, y, z) C 坐标确定后 backbone的自由度很小 侧链排放有一定的自由度o 距离矩阵 坐标 距离矩阵 , 距离矩阵 坐标 镜像问题,丢失了手性 相邻的 C 距离为 3.8 A 左右(特例: cis-proline 2.8A) k*L个 C-C距离便可恢复出 L个 C的坐标2) 角空间 o 扭转角 (Torsion angle)o phi-angle (): N-C bond o psi-angle (): C-C bondo 键长欧式空间的表示法可以与角空间的表示法互相转换1 2 3 41 0 3.8 6.0 8.12 3.8 0
3、 3.8 5.93 6.0 3.8 0 3.84 8.1 5.9 3.8 012346.08.15.93.8 3.83.83.8蛋白质折叠过程 朝自由能 E最低的构造( conformation)折叠,形成稳定的氢键,静电以及范德华相互作用,产生二级结构螺旋 平行 /反平行蛋白质结构预测问题l 问题: 寻找从氨基酸序列到蛋白质所有原子三维坐标的一种映射l 必要性 结构与功能关系密切,应用面广 但受实验手段限制,实测的蛋白质序列数目结构数目l 可行性 thermodynamic hypothesis(Anfinsens dogma, Christian Boehmer Anfinsen, 197
4、2年诺贝尔化学奖 ):蛋白质链会以自由能最低的方式形成三维结构,至少对于小的球蛋白,其三维结构由其氨基酸序列决定的 结构保守性序列保守性l 难度 蛋白质折叠的机理不明确 对某些序列,可能的序列到结构的映射数是天文数字Template-freeTemplate-based方法论 共同问题同源建模Homology Modeling序列足够相似,属同源蛋白,则整体结构会很相似串线法Threading识别与目标序列有关的结构片段组合片段,搜索自由能最低从头计算Ab Initio, Denovo在 Ramachandran plot 指导下旋转 , , 搜索自由能最低Template-freeTempl
5、ate-based方法论 共同问题同源建模Homology Modeling序列足够相似,属同源蛋白,则整体结构会很相似串线法Threading识别与目标序列有关的结构片段组合片段,搜索自由能最低从头计算Ab Initio, Denovo在 Ramachandran plot 指导下旋转 , , 搜索自由能最低l 序列、结构数据的组织 数据 (库 ) 度量衡 分类 知识l 比对 ( alignment) 建立数据间的联系l 建模 ( modeling) 数据间的联系 结构l 质量评估 ( QA) 能量函数 统计规律 几何关系Sequence DB:数据库NR Uniprot pFam分类序列相似性 Sequence alignmentStructure DBSequence DB:数据库NR Uniprot pFamScop FSSPPDB Protein Data BankCATH分类 人工 人工自动 全自动分类几何信息进化信息 层次聚类序列相似性 Sequence alignment结构相似性 structure alignment2/3的结构分类是重合的