首页 蛋白质结构预测方法:同源建模与折叠识别

蛋白质结构预测方法:同源建模与折叠识别

举报
开通vip

蛋白质结构预测方法:同源建模与折叠识别 蛋白质结构预测方法 同源建模& 折叠识别 下次:从头算预测 7.91 Amy Keating 复习-同源建模 • 用已知结构的蛋白质(模板)确认相似性序列的蛋白质 • 用模板来比对目标序列 • 用比对的方法对目标序列建立起近似的结构 • 充满了缺失片断 • 优化结构 • 评价成功 一篇优秀的评论: Marti-Renom et al. Annu. Rev. Biophys. Biomol. Struct. 29 (2000): 291-325. Marti-Ren...

蛋白质结构预测方法:同源建模与折叠识别
蛋白质结构预测方法 同源建模& 折叠识别 下次:从头算预测 7.91 Amy Keating 复习-同源建模 • 用已知结构的蛋白质( 模板 个人简介word模板免费下载关于员工迟到处罚通告模板康奈尔office模板下载康奈尔 笔记本 模板 下载软件方案模板免费下载 )确认相似性序列的蛋白质 • 用模板来比对目标序列 • 用比对的方法对目标序列建立起近似的结构 • 充满了缺失片断 • 优化结构 • 评价成功 一篇优秀的评论: Marti-Renom et al. Annu. Rev. Biophys. Biomol. Struct. 29 (2000): 291-325. Marti-Renom et al. Annu. Rev. Biophys. Biomol. Struct. 29 (2000): 291-325. 得到 TM序列年度评论的非盈利年度评论出版社允许。允许使用 这些数字来自自动过程- 从某种程度上比手动干涉 结果要好 基于基因尺度的同源建模 • 需要自动操作 -不能手动选取模板或者与队列符合较好的序列 • MODBASE and 3D-CRUNCH http://alto.compbio.ucsf.edu/modbase-cgi/index.cgi http://www.expasy.ch/swissmod/SM_3DCrunch.html • 自动评估很重要-模型的可靠性如何? 评估的方法 想要计算基于性质的预测模型好坏概率! 对已知模型给定分值(如: Q -分值-后面会详细介绍),用已知样本做训练集,用 贝叶斯方法 P(A|B) = P(A ^ B)/P(B) = P(A)P(B|A)/{P(A)P(B|A) + P(!A)P(B|!A)} 假设一个好或坏模型的概率相等, 如: P(A) = P(!A) 这里 A = 好的模型 ; !A = 坏的模型 ; B = Q- 分值 P( 好 |Q- 分值 ) = P(Q- 分值 | 好 )/{P(Q- 分值 | 好 ) + P(Q- 分值 | 坏 )} Sanchez, R, and A Sali. "Large-scale Protein Structure Modeling of The Saccharomyces Cerevisiae Genome.“ Proc Natl Acad Sci U S A. 95, no. 23 (10 November 1998): 13597-602. MODBASE http://alto.compbio.ucsf.edu/modbase-cgi/index.cgi • 733 , 239 序列& 7120 非冗余结构 • 折叠分配(由 PSI - BLAST ) • 可靠的折叠分配: 413,311 序列中有 827,007 • 每序列平均折叠: 2.0 • 查询的平均长度: 511 氨基酸 • 折叠的平均长度: 229 氨基酸 • 比对模型(由 MODELLER ) • 可靠模型 547,473 • 可靠模型序列: 327,393 ( 59% ) • 最为模板的结构: 6 , 366 ( 89 %) 对可靠的折叠队列, PSI - BLAST 的 E 值 < 0.0001 或可靠的模型 对可靠的模型,在它们正确的位置的 3.5A 内 30 %的 Cα 原子重 叠 例子 从 Pombe 复制了一个新的基因 在 ModBase 中查询 假定 ] 半乳糖基转移酶与蛋白质激酶相关 (GenBank 的编号 # 3006192) Pieper, Ursula, Narayanan Eswar, Ashley C. Stuart, Valentin A. Ilyin, and Andrej Sali. "MODBASE, A Database of Annotated Comparative Protein Structure Models." Nucl. Acids Res. 30 (2002): 255-259. http://alto.compbio.ucsf.edu/modbase-cgi/index.cgi 新 POMBE 基因模型 Schulze-Gahmen, U., J. Brandsen, H. D. Jones, D. O. Morgan, L. Meijer, J. Vesely, and S. H. Kim. "Multiple Modes of Ligand Recognition: Crystal Structures of Cyclin-dependent Protein Kinase 2 in Complex with ATP and Two Inhibitors, Olomoucine and Isopentenyladenine." Proteins 22 (1995): 378. The Protein Data Bank (PDB - http://w w w .pdb.org/) is the single w orldw ide repository for the processing and distribution of 3-D biological macromolecular structure data. Berman, H. M., J. Westbrook, Z. Feng, G. Gilliland, T. N. Bhat, H. Weissig, I. N. Shindyalov, and P. E. Bourne. The Protein Data Bank. Nucleic Acids Research 28 (2000): 235-242. (PDB Advisory Notice on using materials available in the archive: http://www.rcsb.org/pdb/advisory.html) CASP 内容 • Critical Assessment of Protein Structure Prediction • 始于 1994 ( CASP1 ) • 每两年举办一次 • 实验人员提交目标序列 • 预测人员提交并总结预测结果 • 评估人员提出标准,来评价预测结果 • 举办会议讨论结果并出版在相应的期刊上(蛋白质) • 理论上,只能区分出问题涉及的领域,人们还需回去继续工作,在下次会议 讨论 目标序列 T0111 , BLAST 与 PDB 结果的比较 在 CASP4 中对 T0111 最好的预测 与真实结构的重叠 从 CASP4 同源建模结果的描述,请看… Tramontano, A, R Leplae, and V Morea. "Analysis and Assessment of Comparative Modeling Predictions in CASP4." Proteins Suppl 5 (2001): 22-38. 模型比对的进展 从 CASP1 到 CASP5 ,方法并没有实质性的改进 很多模板结构可以采用 可以获得更多的序列来帮助比对 更多的远源相关序列可以用 PSI - BLAST 来判断 对于比对或改进问题没有新的解决办法 折叠识别 / 穿线方法对蛋白质结构的预测 观察:有限的蛋白质折叠种类( ~1,000? ) 与“从头开始”来预测蛋白质结构不同,我们可以从有 限的蛋白质折叠条目中得到正确的结果。 基于序列技巧可以做到这一点,或者通过穿线法将序列 按顺序投到模板上,并评价每一个匹配好坏程度 折叠识别或穿线法 目标序列= SHPALTQLRALRYCKEIPALDPQLLDWLLLEDSMTKRFEQQ… 可能折叠的库 (哪些具有已知序列和结构): 序列-结构比对 目标= SHPALTQLRALRYCKEIPALDPQLLDWLLLEDSMTKRFEQQ… = t1t2t3t4t5…t n 已知折叠结构的序列= s1s2s3s4s5…s n 已知折叠结构的位置= p1p2p3p4p5…p n 怎样将目标序列与结构进行比对? 通过 3D - 1D 比对将序列到结构性质连接起来 用一个序列组表示每一个残基的结构环境的方法来描述结构 - 怎样埋藏的 - 环境的极性 / 非极性性质 - 局部二级结构 6 x 3 环境种类 Bowie & Eisenberg, Science (1991) 253, 164-170 不同的氨基酸偏好不同的环境 用统计的方法对每一个氨基酸对每一种环境偏好进行度量(对数几率分值) 分值矩阵的建立= 3D 概形 用动态 规划 污水管网监理规划下载职业规划大学生职业规划个人职业规划职业规划论文 程序来比对序列和它的环境串 由 3D - 1D 折叠识别 • 将目标序列队列到模板与大量的其它可能的结构进行比对 • Z-scores > 7 表示好的匹配 改进 3D - 1D 分值 用多种类别比较好-现在我们有很多数据是可能的 包括目标分子预测的性质(如: 2° 结构) H3P2 用 5 维分值 - 3维用于折叠 7 个残基种类 3 个二级结构 2 个埋藏基团 - 2维用于序列 7 个残基种类 预测二级结构 在分值矩阵中有 7x3x2x7x3 = 882 个不同基元 从 119 个小于 30 %的序列相似性的结构相似对的矩阵得到的数值 H3P2 method: Rice & Eisenberg J. Mol. Bio. (1997) 267, 1026 由 3D - 1D 比对折叠识别 优 点 缺 点 由 3D - 1D 比对折叠识别 优 点 -快速 O ( mn ) - 包含结构信 息 - 合理的效果 缺 点 假设位置独立 假设环境保守 有用的折叠识别和结构评估(如:预测或实验结构) 考虑位置的相关性 基于成对接触势的分值法 t ri是投影到结构位置 i 的目标序列氨基酸 基于知识的接触势法 • 用 pdb 中的到的频率来计算分值 例子 如果两个残基的距离小于 6 A ( Cα-Cα距离)则有接触发生。 正规化就是,假设残基 i 和 j 之间没有相互作用,见到它们 的期望概率 基于知识的穿线势法 • 一些统计势包括距离项 在 dij = 4 比对势 Sippl J. Mol. Bio. (1990) 213, 859; Jones et al. Nature (1992) 358, 86 正反接触势 正反接触势 计算快速 对结构细节不敏感 对低分辨率的实验结构同样适用 不需要对物理性质精确描述 已确证对结构的质量相当敏感 不能较好的表征物理势 易于获得 H/P 模式效果 人造: +/+, +/-和 -/- 在距离 > 4Å时很相似,因为它们经常被发 现在表面 接触势用于穿线法或者结构评估 Sippl被定义为具有合理的已知几何结构的 230 个蛋白质中的 一个“聚合蛋白质”。 沿着聚合蛋白质序列移动目标序列,计算一个 Z -分值,正规化其长度 ModBase 用 Q-score 计算模型的置信度。 它与建立模型的分值函数是独立的。 用接触势的穿线法要面对的问题 接触依赖于序列 序列依赖于接触 计算一个残基在某一位置的得分,你需要知道其它位置哪些残基。而这些残基还 未确定! 当允许可变长度的空位用成对分值函数来进行比对时,这是个 NP - hard 问题 -他不能由多元时间解决 做些什么? •对空位长度和位置进行限制(如:不允许空位出现在二级结构的核心位置) •用启发式算法 例子:在“冻结”近似里面,你首次用模板序列来计算每一个位置的分值 在启发迭代过程中使用最后队列中一次迭代的残基。 折叠识别的表现- CASP4 •两个难点: -找到正确的折叠 -将目标与模板比对 •难点是两者之间的关系(判断最佳的模板和目标序列之间的相似程度和判断 目标序列和模板序列之间的相似程度)。 •对最好的序列组,通常可以正确确定其折叠情况(或最相似的情况) •对最差序列组结果极差(比用服务器自动匹配的结果更差) •对所有的序列组,比对是一个大的难题。 Sippl et al. PROTEINS (2001) Suppl. 5, 55-67 折叠识别的表现 CASP4 非常差 好 (但只有 90 %的残基正确预测) 非常好 ( 46 %残基正确预测) 请看 Sippl, MJ, P Lackner, FS Domingues, A Prlic, R Malik, A Andreeva, and M Wiederstein. "Assessment of The CASP4 Fold Recognition Category." Proteins Suppl 5 ( 2001): 55-67. 在 CASP4 中的折叠识别 尺度: 1=找到一些相关的折叠 2=找到正确的折叠 3=正确的折叠,差的比对 4=出色的!(仍然,比对精确度~ 40 %) 目标分子的平均表现: 第一行:从序列组中得到的“虚拟预测”平均最优 分值 第二行:最优序列组的平均最优值 最优的模板 12.7 %序列 ID 目标序列 最优预测 请看 Kinch, LN, JO Wrabl, SS Krishna, I Majumdar, RI Sadreyev, Y Qi, J Pei, H Cheng, and NV Grishin. "CASP5 Assessment of Fold Recognition Target Predictions." Proteins 53, Suppl 6 (2003): 395-409. CASP 中的评估标准 研究的难点-随着标准的改变要取得进展是比较困难的 最近多数人认同的一个标准是 GDT - TS GDT-TS = 1/4(N1 + N2 + N3 + N4) 目标分子难点 请看 Venclovas, C, A Zemla, K Fidelis, and J Moult. "Assessment of Progress over The CASP Experiments.“ Proteins 53, Suppl 6 (2003): 585-95. 在 CASP5 中的折叠识别 在 CASP5 中折叠识别的表现得以改进主要是因为使用了中间服务器 中间服务器是收集其它方法的预测结果并用不同的方法(如用神经网络方法 )将它们合并起来的一个预测集合体。 一些中间服务器: 3D SHOTGUN PCONS 在基因组宽尺度上的折叠识别 • 需要对不同的蛋白质的结构和功能进行注释 • 对基因组宽尺度应用来说,穿线法太慢并且需要太多的人工干预 • 基于序列的方法已经比较好了 • 添加结构信息可以帮助确定远源相关性 在基因组宽尺度上的折叠识别程序 • GenThreader( 折叠认识法 ) http://bioinf.cs.ucl.ac.uk/psipred - 建立一个源于所有折叠模板的基于结构的序列比对方法 - 将目标分子比对到概形(序列比对,像 PSI-BLAST ) - 用穿线势法来确定比对分值 -获得几个成功预测的例子 比对分值,比对长度,目标分子长度,模板长度,成对穿线法分 值,环境穿线分值 -将这些用神经网络算法得到一个单一的表示模型质量的指标 GenThreader( 折叠认识法 ) 的效果 •基于从 FSSP (记得 DALT… )中 68 个具有小于 18.9 %序列相似性的蛋 白质对的基准。 •73.5 %的匹配正确性 - 1999 年中基于序列的最优方法达到 63 % •低的错误正确速率-信心的指标 •当折叠正确队列具有 46.2 %的残基正确性 •支原体生殖基因组( 1999 ) -对基因组中具有 46 %的序列相似性的蛋白质提供一些解释 ( 30% 的氨基酸) Jones, David T. "GenTHREADER: An Efficient and Reliable Protein Fold Recognition Method for Genomic Sequences1." Journal of Molecular Biology 287, no. 4 (9 April 1999): 797-815.
本文档为【蛋白质结构预测方法:同源建模与折叠识别】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_287336
暂无简介~
格式:pdf
大小:458KB
软件:PDF阅读器
页数:41
分类:
上传时间:2009-06-19
浏览量:136