下载

1下载券

加入VIP
  • 专属下载券
  • 上传内容扩展
  • 资料优先审核
  • 免费资料无限下载

上传资料

关闭

关闭

关闭

封号提示

内容

首页 蛋白质结构预测方法:同源建模与折叠识别

蛋白质结构预测方法:同源建模与折叠识别.pdf

蛋白质结构预测方法:同源建模与折叠识别

pcibusgood
2009-06-19 0人阅读 举报 0 0 0 暂无简介

简介:本文档为《蛋白质结构预测方法:同源建模与折叠识别pdf》,可适用于工程科技领域

蛋白质结构预测方法同源建模&折叠识别下次:从头算预测AmyKeating复习-同源建模•用已知结构的蛋白质(模板)确认相似性序列的蛋白质•用模板来比对目标序列•用比对的方法对目标序列建立起近似的结构•充满了缺失片断•优化结构•评价成功一篇优秀的评论:MartiRenometalAnnuRevBiophysBiomolStruct():MartiRenometalAnnuRevBiophysBiomolStruct():得到TM序列年度评论的非盈利年度评论出版社允许。允许使用这些数字来自自动过程-从某种程度上比手动干涉结果要好基于基因尺度的同源建模•需要自动操作-不能手动选取模板或者与队列符合较好的序列•MODBASEandDCRUNCHhttp:altocompbioucsfedumodbasecgiindexcgihttp:wwwexpasychswissmodSMDCrunchhtml•自动评估很重要-模型的可靠性如何评估的方法想要计算基于性质的预测模型好坏概率!对已知模型给定分值(如:Q-分值-后面会详细介绍)用已知样本做训练集用贝叶斯方法P(A|B)=P(A^B)P(B)=P(A)P(B|A){P(A)P(B|A)P(!A)P(B|!A)}假设一个好或坏模型的概率相等如:P(A)=P(!A)这里A=好的模型!A=坏的模型B=Q分值P(好|Q分值)=P(Q分值|好){P(Q分值|好)P(Q分值|坏)}Sanchez,R,andASali"LargescaleProteinStructureModelingofTheSaccharomycesCerevisiaeGenome“ProcNatlAcadSciUSA,no(November):MODBASEhttp:altocompbioucsfedumodbasecgiindexcgi•序列&非冗余结构•折叠分配(由PSI-BLAST)•可靠的折叠分配:,序列中有,•每序列平均折叠:•查询的平均长度:氨基酸•折叠的平均长度:氨基酸•比对模型(由MODELLER)•可靠模型,•可靠模型序列:,()•最为模板的结构:(%)对可靠的折叠队列PSI-BLAST的E值<或可靠的模型对可靠的模型在它们正确的位置的A内%的Cα原子重叠例子从Pombe复制了一个新的基因在ModBase中查询假定半乳糖基转移酶与蛋白质激酶相关(GenBank的编号#)Pieper,Ursula,NarayananEswar,AshleyCStuart,ValentinAIlyin,andAndrejSali"MODBASE,ADatabaseofAnnotatedComparativeProteinStructureModels"NuclAcidsRes():http:altocompbioucsfedumodbasecgiindexcgi新POMBE基因模型SchulzeGahmen,U,JBrandsen,HDJones,DOMorgan,LMeijer,JVesely,andSHKim"MultipleModesofLigandRecognition:CrystalStructuresofCyclindependentProteinKinaseinComplexwithATPandTwoInhibitors,OlomoucineandIsopentenyladenine"Proteins():TheProteinDataBank(PDBhttp:wwwpdborg)isthesingleworldwiderepositoryfortheprocessinganddistributionofDbiologicalmacromolecularstructuredataBerman,HM,JWestbrook,ZFeng,GGilliland,TNBhat,HWeissig,INShindyalov,andPEBourneTheProteinDataBankNucleicAcidsResearch():(PDBAdvisoryNoticeonusingmaterialsavailableinthearchive:http:wwwrcsborgpdbadvisoryhtml)CASP内容•CriticalAssessmentofProteinStructurePrediction•始于(CASP)•每两年举办一次•实验人员提交目标序列•预测人员提交并总结预测结果•评估人员提出标准来评价预测结果•举办会议讨论结果并出版在相应的期刊上(蛋白质)•理论上只能区分出问题涉及的领域人们还需回去继续工作在下次会议讨论目标序列TBLAST与PDB结果的比较在CASP中对T最好的预测与真实结构的重叠从CASP同源建模结果的描述请看…Tramontano,A,RLeplae,andVMorea"AnalysisandAssessmentofComparativeModelingPredictionsinCASP"ProteinsSuppl():模型比对的进展从CASP到CASP方法并没有实质性的改进很多模板结构可以采用可以获得更多的序列来帮助比对更多的远源相关序列可以用PSI-BLAST来判断对于比对或改进问题没有新的解决办法折叠识别穿线方法对蛋白质结构的预测观察:有限的蛋白质折叠种类(~,)与“从头开始”来预测蛋白质结构不同我们可以从有限的蛋白质折叠条目中得到正确的结果。基于序列技巧可以做到这一点或者通过穿线法将序列按顺序投到模板上并评价每一个匹配好坏程度折叠识别或穿线法目标序列=SHPALTQLRALRYCKEIPALDPQLLDWLLLEDSMTKRFEQQ…可能折叠的库(哪些具有已知序列和结构):序列-结构比对目标=SHPALTQLRALRYCKEIPALDPQLLDWLLLEDSMTKRFEQQ…=ttttt…tn已知折叠结构的序列=sssss…sn已知折叠结构的位置=ppppp…pn怎样将目标序列与结构进行比对?通过D-D比对将序列到结构性质连接起来用一个序列组表示每一个残基的结构环境的方法来描述结构-怎样埋藏的-环境的极性非极性性质-局部二级结构x环境种类BowieEisenberg,Science(),不同的氨基酸偏好不同的环境用统计的方法对每一个氨基酸对每一种环境偏好进行度量(对数几率分值)分值矩阵的建立=D概形用动态规划程序来比对序列和它的环境串由D-D折叠识别•将目标序列队列到模板与大量的其它可能的结构进行比对•Zscores>表示好的匹配改进D-D分值用多种类别比较好-现在我们有很多数据是可能的包括目标分子预测的性质(如:°结构)HP用维分值-维用于折叠个残基种类个二级结构个埋藏基团-维用于序列个残基种类预测二级结构在分值矩阵中有xxxx=个不同基元从个小于%的序列相似性的结构相似对的矩阵得到的数值HPmethod:RiceEisenbergJMolBio(),由D-D比对折叠识别优点缺点由D-D比对折叠识别优点快速O(mn)包含结构信息合理的效果缺点假设位置独立假设环境保守有用的折叠识别和结构评估(如:预测或实验结构)考虑位置的相关性基于成对接触势的分值法tri是投影到结构位置i的目标序列氨基酸基于知识的接触势法•用pdb中的到的频率来计算分值例子如果两个残基的距离小于A(CαCα距离)则有接触发生。正规化就是假设残基i和j之间没有相互作用见到它们的期望概率基于知识的穿线势法•一些统计势包括距离项在dij=比对势SipplJMolBio(),JonesetalNature(),正反接触势正反接触势计算快速对结构细节不敏感对低分辨率的实验结构同样适用不需要对物理性质精确描述已确证对结构的质量相当敏感不能较好的表征物理势易于获得HP模式效果人造:,和在距离>Å时很相似因为它们经常被发现在表面接触势用于穿线法或者结构评估Sippl被定义为具有合理的已知几何结构的个蛋白质中的一个“聚合蛋白质”。沿着聚合蛋白质序列移动目标序列计算一个Z-分值正规化其长度ModBase用Qscore计算模型的置信度。它与建立模型的分值函数是独立的。用接触势的穿线法要面对的问题接触依赖于序列序列依赖于接触计算一个残基在某一位置的得分你需要知道其它位置哪些残基。而这些残基还未确定!当允许可变长度的空位用成对分值函数来进行比对时这是个NP-hard问题-他不能由多元时间解决做些什么?•对空位长度和位置进行限制(如:不允许空位出现在二级结构的核心位置)•用启发式算法例子:在“冻结”近似里面你首次用模板序列来计算每一个位置的分值在启发迭代过程中使用最后队列中一次迭代的残基。折叠识别的表现-CASP•两个难点:-找到正确的折叠-将目标与模板比对•难点是两者之间的关系(判断最佳的模板和目标序列之间的相似程度和判断目标序列和模板序列之间的相似程度)。•对最好的序列组通常可以正确确定其折叠情况(或最相似的情况)•对最差序列组结果极差(比用服务器自动匹配的结果更差)•对所有的序列组比对是一个大的难题。SippletalPROTEINS()Suppl,折叠识别的表现CASP非常差好(但只有%的残基正确预测)非常好(%残基正确预测)请看Sippl,MJ,PLackner,FSDomingues,APrlic,RMalik,AAndreeva,andMWiederstein"AssessmentofTheCASPFoldRecognitionCategory"ProteinsSuppl():在CASP中的折叠识别尺度:=找到一些相关的折叠=找到正确的折叠=正确的折叠差的比对=出色的!(仍然比对精确度~%)目标分子的平均表现:第一行:从序列组中得到的“虚拟预测”平均最优分值第二行:最优序列组的平均最优值最优的模板%序列ID目标序列最优预测请看Kinch,LN,JOWrabl,SSKrishna,IMajumdar,RISadreyev,YQi,JPei,HCheng,andNVGrishin"CASPAssessmentofFoldRecognitionTargetPredictions"Proteins,Suppl():CASP中的评估标准研究的难点-随着标准的改变要取得进展是比较困难的最近多数人认同的一个标准是GDT-TSGDTTS=(NNNN)目标分子难点请看Venclovas,C,AZemla,KFidelis,andJMoult"AssessmentofProgressoverTheCASPExperiments“Proteins,Suppl():在CASP中的折叠识别在CASP中折叠识别的表现得以改进主要是因为使用了中间服务器中间服务器是收集其它方法的预测结果并用不同的方法(如用神经网络方法)将它们合并起来的一个预测集合体。一些中间服务器:DSHOTGUNPCONS在基因组宽尺度上的折叠识别•需要对不同的蛋白质的结构和功能进行注释•对基因组宽尺度应用来说穿线法太慢并且需要太多的人工干预•基于序列的方法已经比较好了•添加结构信息可以帮助确定远源相关性在基因组宽尺度上的折叠识别程序•GenThreader(折叠认识法)http:bioinfcsuclacukpsipred-建立一个源于所有折叠模板的基于结构的序列比对方法-将目标分子比对到概形(序列比对像PSIBLAST)-用穿线势法来确定比对分值-获得几个成功预测的例子比对分值比对长度目标分子长度模板长度成对穿线法分值环境穿线分值-将这些用神经网络算法得到一个单一的表示模型质量的指标GenThreader(折叠认识法)的效果•基于从FSSP(记得DALT…)中个具有小于%序列相似性的蛋白质对的基准。•%的匹配正确性-年中基于序列的最优方法达到%•低的错误正确速率-信心的指标•当折叠正确队列具有%的残基正确性•支原体生殖基因组()-对基因组中具有%的序列相似性的蛋白质提供一些解释(的氨基酸)Jones,DavidT"GenTHREADER:AnEfficientandReliableProteinFoldRecognitionMethodforGenomicSequences"JournalofMolecularBiology,no(April):

用户评价(0)

关闭

新课改视野下建构高中语文教学实验成果报告(32KB)

抱歉,积分不足下载失败,请稍后再试!

提示

试读已结束,如需要继续阅读或者下载,敬请购买!

评分:

/41

VIP

在线
客服

免费
邮箱

爱问共享资料服务号

扫描关注领取更多福利