蛋白质结构与功能的预测方法总结和资料汇总
“折叠(fold)”的概念
“折叠(fold)”是近年来蛋白质研究中应用较广的一个概念,它是介与二级和三
级结构之间的蛋白质结构层次,它描述的是二级结构元素的混合组合方式。
二级结构的预测方法介绍:
Chou-Fasman 算法:
是单序列预测方法中的一种,它是使用氨基酸物理化学数据中派生出来的规律来
预测二级结构。 首先统计出 20 种氨基酸出现在 α螺旋、β折叠和无规则卷曲中
出现频率的大小,然后计算出每一种氨基酸在这几种构象中的构象参数 Px.构象
参数值的大小反映了该种残基出现在某种构象中的倾向性的大小。按照构象参数
值的大小可以把氨基酸分为六个组:Ha(强螺旋形成者)、ha( 螺旋形成者)、
Ia(弱螺旋形成者)、ia(螺旋形成不敏感者)、ba(螺旋中断者)、Ba(强螺旋
中断者)。Chou和 Fasman根据残基的倾向性因子提出二级结构预测的经验规则,
要点是沿蛋白序列寻找二级结构的成核位点和终止位点。这种方法可能能够正确
反映蛋白质二级结构的形成过程,但预测成功率并不高,仅有 50%左右
GOR 算法:
也是单序列预测方法中的一种,因其作者 Garnier, Osguthorpe 和 Robson 而得
名。这种方法是以信息论为基础的,也属于统计学方法的一种,GOR 方法不仅
考虑被预测位置本身氨基酸残基种类对该位置构象的影响,也考虑到相邻残基种
类对该位置构象的影响。这样使预测的成功率提高到 65% 左右。GOR 方法的
优点是物理意义清楚明确,数学
表
关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf
达严格,而且很容易写出相应的计算机程序,
但缺点是表达式复杂。
多序列列线预测:
对序列进行多序列比对,并利用多序列比对的信息进行结构的预测。调查者可找
到和未知序列相似的序列家族,然后假设序列家族中的同源区有同样的二级结构,
预测不是基于一个序列而是一组序列中的所有序列的一致序列。
基于神经网络的序列预测:
利用神经网络的方法进行序列的预测,BP (Back-Propagation Network) 网络即
反馈式神经网络算法是目前二级结构预测应用最广的神经网络算法,它通常是由
三层相同的神经元构成的层状网络,使用反馈式学习规则,底层为输入层,中间
为隐含层,顶层是输出层,信号在相邻各层间逐层传递,不相邻的各层间无联系,
在学习过程中根据输入的一级结构和二级结构的关系的信息不断调整各单元之
间的权重,最终目标是找到一种好的输入与输出的映象,并对未知二级结构的蛋
白进行预测。神经网络方法的优点是应用方便,获得结果较快较好,主要缺点是
没有反映蛋白的物理和化学特性,而且利用大量的可调参数,使结果不易理解。
许多预测程序如 PHD、PSIPRED 等均结合利用了神经网络的计算方法。
基于已有知识的预测方法(knowledge based method):
这类预测方法包括 Lim 和 Cohen 两种方法。Lim 方法是一种物理化学的方法,
它根据氨基酸残基的物理化学性质,包括:疏水性、亲水性、带电性以及体积大
小等,并考虑残基之间的相互作用而制订出一套预测规则。对于小于 50 个氨基
酸残基的肽链, Lim 方法的预测准确率可以达到 73%. 另一种是 Cohen 方法,
它的提出当时是为了 α/β蛋白的预测,基本原理是说:疏水性残基决定了二级结
构的相对位置,螺旋亚单元或扩展单元是结构域的核心,α螺旋和 β折叠组成了
结构域。
混合方法(hybrid system method):
将以上几种方法选择性的混合使用,并调整他们之间使用的权重可以提高预测的
准确率,目前预测准确率在 70%以上的都是混合方法,其中,同源性比较方法、
神经网络方法 和 GOR 方法 应用最为广泛。
三级结构的预测:
同源性建模:
假设对已知结构的另一个蛋白质序列来排列一个蛋白质的序列,如果靶序列和已
知结构序列在整个序列的全长有很高的相似性,在合理的信任度上,我们可以使
用已知结构作为靶蛋白质的模版。
“串线(threading)”算法:
串线结构分析是试图把未知的氨基酸序列和各种已存在的三维结构相匹配,并评
估序列折叠成那种结构的合适度。串线法最适用于折叠(fold)的识别,而不是
模型的建立。它是快速用未知序列的氨基酸侧链替换已知序列中的氨基酸位置。
Jones 等首先从蛋白质结构数据库中挑选蛋白质结构建立折叠子数据库,以折叠
子数据库中的折叠结构作为模板,将目标序列与这些模板一一匹配,通过计算打
分函数值判断匹配程度,根据打分值给模板结构排序,其中打分最高的被认为是
目标序列最可能采取的折叠结构。Threading 方法的难点在于序列与折叠结构的
匹配技术和打分函数的确定。(Jones 等,1992)
蛋白质二级结构预测:
蛋白质二级结构的预测通常被认为是蛋白结构预测的第一步,是根据它们被预测
的局部结构,对蛋白序列中的氨基酸进行分类。二级结构的预测方法通常分为多
序列列线预测和单序列预测的方法。由于单序列预测所提供的信息只是残基的顺
序而没有其空间分布的信息,所以单序列预测的算法预测准确率并不高而且对于
一些特殊结构,这些算法很难预测成功。 多序列列线预测和神经网络的应用大
大提高了二级结构预测的准确度,通过对序列比对的预测可以明确的提供单一位
点在三维结构上的信息。这样通常二级结构预测的准确率比单序列预测能够提高
10%.许多方法据说可达到 70%-77%,目前较为常用的几种方法有:PHD、
PSIPRED、Jpred、PREDATOR、PSA。其中最常用的是 PHD。PHD 结合了许多
神经网络的成果,每个结果都是根据局部序列上下文关系和整体蛋白质性质(蛋
白质长度、氨基酸频率等)来预测残基的二级结构。那么,最终的预测是这些神
经网络每个输出的算术平均值。 这种结合
方案
气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载
被称为陪审团决定法(jury
decision)或者称为所有胜利者(winner-take-all)法。PHD 被认为是二级结构
预测的
标准
excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载
。
蛋白质三级结构预测:
蛋白质三维结构的预测方法通常包括:同源性建模和从头开始的预测方法。对数
据库中已知结构的序列的比对是预测未知序列三级结构的主要方法,也即同源建
模的方法。通常对于同源建模的方法过程并非统一,但基本思路是一致的,基本
包括如下几个步骤:
1.使用未知序列作为查询来搜索已知蛋白质结构。
2.产生未知序列和模版序列最可能的完整比对。
3.以模版结构骨架作为模型,建立蛋白质骨架模型。
4.在靶序列或者模版序列的有空位区域,使用环建模过程代替合适长度的片段。
5.给骨架模型加上侧链。
6.优化侧链的位置。
7.使用能量最小和已知的优化知识来优化结构。
在进行序列比对时,最容易使用 BLASTP 程序比对 NRL-3D 或 SCOP 数据库中
的序列。如果发现超过100个碱基长度且有远高于40%序列相同率的匹配序列,
则未知序列蛋白与该匹配序列蛋白将有非常相似的结构。在这种情况下,同源性
建模在预测该未知蛋白精细结构方面会有非常大的作用。同源性建模的成功的关
键通常不是建模使用的软件或服务器,在设计与模版结构好的比对时的技巧更加
重要。
结构预测相关程序及数据库:
常用蛋白序列和结构数据库:
数据库说明网址链接
PDB 蛋白质三维结构 http://www.rcsb.org/pdb
SWISS-PROT 蛋白质序列数据库 http://kr.expasy.org/sprot/
PIR 蛋白质序列数据库 http://pir.georgetown.edu/
OWL 非冗余蛋白质序列 http://www.bioinf.man.ac.uk/dbbrowser/OWL/
EMBL 核酸序列数据库 http://www.embl-heidelberg.de/
TrEMBLEMBL 的翻译数据库 http://kr.expasy.org/sprot/
GenBANK 核酸序列数据库 http://www.ncbi.nih.gov/Genbank/
PROSITE 蛋白质功能位点 http://kr.expasy.org/prosite/
SWISS-MODEL 从 序 列 模 建 结 构
http://www.expasy.org/swissmod/SWISS-MODEL.html
SWISS-3DIMAGE 三维结构图示 http://us.expasy.org/sw3d/
DSSP 蛋白质二级结构参数 http://www.cmbi.kun.nl/gv/dssp/
FSSP 已知空间结构的蛋白质家族 http://www.ebi.ac.uk/dali/fssp/fssp.html
SCOP 蛋白质分类数据库 http://scop.mrc-lmb.cam.ac.uk/scop/
CATH 蛋白质分类数据库 http://www.biochem.ucl.ac.uk/bsm/cath/
Pfam 蛋白质家族和结构域 http://pfam.wustl.edu/
蛋白质功能预测:
相关概念:
1. 重叠群(contig):
基因组测序中将许多序列片段经过比对找到重叠区,从而连接成长片段,称重叠
连续群,简称重叠群。
2. 序列模体(motif):
通常指蛋白序列中相邻或相近的一组具有保守性的残基,与蛋白质分子及家族的
功能有关。
3. Smith-Waterman 算法:
1981 年,Smith 和 Waterman 提出的一种用来寻找并比较这些具有局部相似区
域的方法,即常用的 Smith-Waterman 算法,它也是一种基于矩阵的方法,而且
也是运用回溯法(backtracking)建立允许空位插入的比对。这个算法的一个重
要特征是矩阵中每个单元均可以是比对结果序列片段的终点,该片段的相似性程
度由该单元中的分数值表示。
4. 计分矩阵(scoring matrix):
记分矩阵是描述残基(氨基酸或碱基)在比对中出现的概率值的表。在记分矩阵
中的值是两种概率比值的对数,一个是在序列比对中氨基酸随机发生的概率。这
个值只是指出每个氨基酸出现的独立几率的概率。另一个是在序列比对中,一对
残基的出现的有意义的概率。这些概率来源于已知有效的真实的序列的比对的样
本。
蛋白质功能确定的思路及方法:
1. 通过相似序列的数据库比对确定功能
具有相似性序列的蛋白质具有相似的功能。因此,最可*的确定蛋白质功能的方
法是进行数据库的相似性搜索。需要明确的是,一个显著的匹配应至少有 25%
的相同序列和超过 80 个氨基酸的区段。对于不少种类的数据库搜索工具,快速
搜索工具(如 BLASTP)速度快,也很容易发现匹配良好的序列,一般就没必要
运行更花时间的工具(如 FASTA、BLITZ);但当 BLASTP 不能发现显著的匹配时,
就需要使用那些搜索速度较慢但很灵敏的工具了。所以,一般的策略就是先进行
BLASTP 检索,如果不能得到相应的结果,就可以运行 FASTA,如果 FASTA 也无
法得到相应结果,最后就需要选用完全根据 Smith-Waterman 算法设计的搜索
程序,如 BLITZ。
比对所选用的记分矩阵对最终预测结果影响也很重要,首先,选择的矩阵须与匹
配水平相一致。PAM250 应用于远距离匹配(<25%相同比率),PAM40 应用于
不很相近的蛋白质序列,BLOSUM62 为一个通用矩阵。其次,使用不同矩阵,
可以发现始终出现的匹配序列,这样可以减少误差。
2. 确定序列特性:疏水性、跨膜螺旋等
许多功能可直接从蛋白质序列预测出来。例如,疏水性信息可被用于跨膜螺旋的
预测,还有不少小的序列模体(motif)是细胞用于特定细胞区室( cell
compartment)蛋白质的定向。对于跨膜螺旋的预测涉及到对跨膜蛋白跨膜区域
的识别,这就需要鉴定序列中可以折叠成螺旋并存在于膜的疏水环境中的区域。
跨膜序列一般具有一些明显的特征,比如,为了跨膜 α 螺旋必须有大约 17~25
个氨基酸长度,因为细胞膜内部是由脂肪酸的长的碳氢链组成,所以膜中的 α
螺旋必须存在相对的面向膜的非极性面才能在能量上是有利的。早期的算法程序
会直接分析这些特征,并通过分析序列的 17~25 个氨基酸的窗口,对每个窗口
产生的疏水性得分,得分高的即被预测为跨膜螺旋,现在一些经过改进的更精确
的算法,不仅提高预测准确性到 90%以上,而且可以预测跨膜螺旋的一些其他
特征,比如在膜上的方向。这些都依赖于一系列对已知跨膜螺旋的特征研究的成
果。
3. 通过序列模体数据库等的比对确定功能
蛋白质不同区段的进化速率不同,蛋白质的一些部分必须保持一定的残基模式以
保持蛋白质的功能,通过确定这些保守区域,有可能为蛋白质功能提供线索。主
要有两种方法可用于序列模体的查找。一种方法是查找匹配的一致序列或序列模
体。这种技术的优点是快捷,序列模体数据库庞大而且不断被扩充;缺点是有时
不灵敏,因为只有与一致序列或序列模体完全匹配才被列出,而近乎匹配的都将
被忽略。使在做复杂分析时候受到严重限制。第二种方法是更加精细的序列分布
型方法。原则上,分布型搜索的是保守序列(不只是一致序列),这样可以更灵
敏的找出那些相关性较远的序列。但分布型和分布数据库需要大量的计算和人力,
所以分布数据库的
记录
混凝土 养护记录下载土方回填监理旁站记录免费下载集备记录下载集备记录下载集备记录下载
没有序列模体数据库多。在实际分析时,应同时对这两种
类型的数据库都进行搜索。
结构密码蕴藏在排序中
这是一个复杂但很有意思的生命过程——基因承载了生命的遗传信息,生命的功
能则是藉由蛋白质执行的;蛋白质是由 20 种氨基酸组成的肽链,而 DNA 中的基
因控制了蛋白质中氨基酸种类的排序。蛋白质只有在折叠的状态下才能表现出生
命的功能,但折叠是如何自发形成的呢?
氨基酸序列与蛋白质空间结构的关系研究源于美国生物化学家安芬森
(C.Anfinsen)。1961 年,他研究了核糖核酸酶的去折叠和重折叠过程,发现在
相同的环境中去折叠的蛋白质都会恢复到原来的空间结构,认为蛋白质链会以自
由能最低的方式形成三维结构,由此推测蛋白质的折叠密码隐藏在氨基酸排序中,
即所谓的安芬森原则:蛋白质一级排序决定三维结构。因为“对控制蛋白质链折
叠原理的研究”,安芬森获得 1972 年诺贝尔化学奖。
然而,蛋白质的空间结构极其复杂,该如何确定呢?现在有两种方法:一种是实
验测量,包括用 X 射线衍射和核磁共振成像;一种是理论预测,利用计算机根据
理论和已知的氨基酸序列等信息来预测,方法包括同源结构模拟、折叠辨识模拟
和基于第一性原理的从头计算。
1913 年,劳尔和布拉格父子第一次发现 X 射线通过晶体可以产生衍射现象从而
确定原子在晶体中的位置并因此获得诺贝尔奖。1957 年,剑桥大学的肯德鲁用
劳尔-布拉格的方法确定出第一个蛋白质(肌红蛋白)的三维结构从而获得1962年
的诺贝尔化学奖。此后 18 年间,人类共测出 38 个蛋白质结构;至 1980 年,这
个数目增长到 184 个。
显然,用实验方法测量蛋白质及生物大分子的结构相当繁琐。张阳说:“蛋白质
结构的实验测定十分费时费力。多年前测定一个蛋白质的结构就有可能获得诺贝
尔奖。如今随着技术的进步,实验测蛋白质结构的时间和花费已经大大地减少了,
但测定一个蛋白质结构的平均费用也在 100 万美元左右。”
自然界有大量种类的蛋白质,实验只能测出其中非常小的一部分,目前“蛋白质
数据库”中只有 3 万多个蛋白质的结构。有没有其他方法可以更快、更经济地测
量出大量蛋白质呢?
物含妙理总堪寻
既然蛋白质结构的密码隐藏在序列中,那么解开这个密码就可以通过序列来解开
蛋白质的结构。张阳说:“我们的目的就是用计算机从氨基酸的序列来直接预测
蛋白质的结构。将序列输进计算机里,设计一套程序,让计算机去计算和确定蛋
白质中每个原子的三维坐标。如果这种理论方法经实验数据的验证可行,那么就
可能通过计算机自动预测出蛋白质的结构,这几乎是免费的。”
然而,用序列预测结构谈何容易。驱动氨基酸折叠形成特定三维空间的作用诸多,
包括氨基酸侧链分子间作用力、水分子表面张力、氨基酸侧链分子间的电偶极距
和电磁力以及它与水分子的相互作用等。根据数学计算,由 100 个氨基酸构成
的小蛋白质的空间构象可能会有 1050 种空间结构。
物含妙理总堪寻。一种氨基酸序列只可能有一种蛋白质结构,这就是计算机预测
蛋白质结构的意义所在。根据安芬森的热动力学原理,蛋白质在细胞中应该处在
它与环境的自由能最低态。这意味着可以根据物理、化学、生物学等知识来设计
蛋白质的能量函数,因此寻找这种最低自由能所代表的结构。
科学家们使出十八般武艺来预测序列与结构间的密码,寻找出三种有代表性的预
测方法:同源结构模拟(Homology Modeling)、折叠辨识模拟(Fold Recognition)
和基于“第一原则”的从头计算方法(Ab Initio)。
同源模拟又称为比较性模拟。如果目标蛋白质与已测出结构的蛋白质的序列有
30%以上的相似,那么这两种蛋白质可被视为同源,它们也应该有类似的空间结
构。因此,若知道同源蛋白质家族中的某些蛋白质的结构,就可利用它们作为模
板来模拟目标蛋白质的结构,这种方法速度较快,精度也比较高。但是这种方法
有局限性,毕竟已知结构的蛋白质数量很少,而且很多蛋白质没有同源系列。
折叠辨识模拟又称串线指认方法,意思是指把目标蛋白序列与蛋白质数据库中所
有的蛋白质结构进行逐一对比。自然界中有些蛋白质的氨基酸序列不大相同,但
其结构极为相似。张阳说:“这对我们建立新计算机模型非常有用。在无法进行
序列比对的情况下,我们就想办法用目标序列直接与已有的其他蛋白质结构进行
比较。具体做法是,设计一个打分系统,让计算机来识别这个序列放在被比较的
其他蛋白质上是否‘舒服’,再根据得分高低判断序列是否会折叠成这种结构,评
分系统是这种方法的关键。”
“从头计算”方法源于安芬森的“最低自由能构型假说”。前两种方法是用已知结构
的蛋白质为模板来构建新的结构,而“从头计算”不需要模板,它是以物理为基础
来研究蛋白质的折叠方法,怎样设计适当的能量函数,怎样找到相应的最低自由
能是这种方法的关键。
蛋白质结构预测免费服务
目前已经有许多蛋白质结构预测服务通过因特网对公众免费开放。由于结构预测
技术本身的局限性,每种预测服务都各有得失。 我们简要介绍几种国际上较为
常用的预测服务的优缺点、使用方法及工作原理。
三级结构预测(同源建模):
瑞士生物信息研究所 SWISS-MODEL
丹麦技术大学生物序列分析中心 CPHmodels
比利时拿摩大学 ESyPred3D
英国癌症研究中心 3DJigsaw
二级结构预测(折叠识别):
美国哥伦比亚大学 PredictProtein
英国瓦卫克大学 PSIpred
印度昌迪加尔的微生物技术研究所 APSSP
欧洲生物信息研究所(EBI)Jpred
美国加利福尼亚大学 SSpro
α-螺旋倾向性预测(从无到有):
欧洲分子生物学实验室(EMBL) AGADIR
AGADIR Service
AGADIR —— 一种预测肽链中螺旋含量的算法
AGADIR 是一种基于螺旋/卷曲转化理论,可以在残基水平上准确预测单体肽螺
旋行为的算法。利用此算法,可以预测肽链的平均螺旋含量、α碳和 α氢原子的
构象、偶合常数、及 N-Cap、C-Cap 等参数。通过用圆二色性法和核磁共振法的
测评,此算法对短肽链,即三级相互作用不明显时,预测准确很高。
利用 AGADIR 的预测数据,可以参考之对肽链螺旋,及至蛋白结构进行适当修饰,
以达到特定的实验目的,或进行其它应用。
到目前为止,蛋白质结构解析的方法主要是两种,x 射线衍射和 NMR。近年来还
出现了一种新的方法,叫做 Electron Microscopy。
其中 X 射线的方法产生的更早,也更加的成熟,解析的数量也更多,我们知道,
第一个解析的蛋白的结构,就是用 x 晶体衍射的方法解析的。而 NMR 方法则是
在 90 年代才成熟并发展起来的。这两种方法各有优点和缺点。
首先来说一下,这两种方法的一般的步骤和各自的优点和缺点。
电子显微镜(electron microscopy)作为一种新型的技术,目前的应用还是非常
少,并且比较狭窄,到最后在给它作些介绍,而且相信绝大多数人也没有听说过,
也不会有很大的兴趣。
首先是 X 晶体衍射。首先要得到蛋白质的晶体。
通常,都是将表达蛋白的基因 PCR 之后克隆到一种表达载体中,然后在大肠杆
菌中诱导表达,提纯之后摸索结晶条件,等拿到晶体之后,工作便完成的 80%,
将晶体进行 x 射线衍射,收集衍射图谱,通过一系列的计算,很快就能得到蛋白
质的原子结构。
用 x 射线的优点是:速度快,通常只要拿到晶体,甚至当天就能得到结构,另外
不受大小限制,无论是多大的蛋白,或者复合体,无论是蛋白质还是 RNA、DNA,
还是结合了什么小分子,只要能够结晶就能够得到其原子结构。
所以 x 射线方法解析蛋白的瓶颈是摸索蛋白结晶的条件。这个时候运气就显的特
别重要。关于这个有好多有趣的离子。据说国外一个同学在摸索两个月无果之后,
毅然去度假,就将蛋白扔在一个很随便的地方,等度假回来之后,却发现已经结
晶了。
然后,来说一下 NMR。
NMR(nuclear magnetic resonance)现象早已发现了很久,然后将这种方法用
来解析蛋白结构,却是近一二十年的事情。不过到今天为止,用 nmr 方法来解
析结构已经十非常成熟的方法。
原理暂且放在一边,先说常规步骤。
首先通过基因工程的方法,表达出目的蛋白,提纯之后,摸索一下蛋白稳定的条
件,如果蛋白没有聚合,而且折叠良好,便将蛋白样品(通常是 1mM-3mM,
500ul,Ph6-7 的 PBS)装入核磁管中,放入核磁谱仪中,然后用一系列写好的
程序控制谱仪,发出一系列的电磁波,激发蛋白中的 H、N13、C13 原子,等电
磁波发射完毕,在收集受激发的原子所放出的“能量”,其实也是小磁场,通过收
集数据、谱图处理、电脑计算从而得到蛋白的原子结构。
它的优点就是,蛋白在液体中得到结构,是一个动态的结构,事实上所有在 pdb
中或者文献中发表的 NMR 结构都是十个或者二十个结构的 ensemble(集合),
这就是因为这些结构都是进行能量优化后符合条件的结构,或者说就是溶液中的
蛋白结构。因为是动态就很容易的研究蛋白与其他蛋白或者配基的相互作用。缺
点是,受大小的限制,到目前为止 NMR 解析蛋白结构的上限是 50kd。
无论是晶体还是 NMR,蛋白都要符合下面的条件:首先表达量要大,象 NMR 要
求 1 个 mM500UL,这就要求十几个毫克,结晶要摸索很多的条件也需要大量的
蛋白。所以蛋白一定要在胞质中表达才行。其次,蛋白要折叠。我们知道许多蛋
白,尤其是真核蛋白在大肠杆菌中是以包含体的形式存在,这种情况下是不行的,
除非复性。如果你的蛋白在胞质中表达,如果你不确定是不是表达,可以从分子
筛上的位置,或者扫 CD 确定一下,当然最简单的是做一个 NMR 一维谱,只需
要几分钟。
小于 20Kd 的蛋白可以考虑 NMR,因为 NMR 研究功能核相互作用方面是更加擅
长的,而且不需要结晶,现在速度也不慢。如果比较大,可以考虑晶体解析。
蛋白质的亚细胞定位
关于蛋白质的亚细胞定位的预测,In general,预测方法分为 3 个步骤。首先,
为每一类亚细胞 locations 构建客观而具有代表性的数据集。其次,从数据集中
提取特征参数或 descriptor。最后也是最关键的一步,通过算法比较查询序列中
所包含的特征参数与各类相应的 location 的相似度,作出判断,一般会用一组概
率的形式来表述。很明显,其中大量运用的是机器学习理论和统计学的方法。对
算法有兴趣的朋友可以参考下面这一篇综述,“An overview on predicting the
subcellular location of a protein” In Silico Biology 2002
http://www.bioinfo.de/isb/2002/02/0027/main.html
以下是该综述中涉及的部分 server,都是比较经典的。
PSORT:http://psort.nibb.ac.jp
By amino acid composition information and sorting signal knowledge
TargetP:http://www.cbs.dtu.dk/services/TargetP/
By discriminating the individual targeting signal peptide
MitoProt:http://ihg.gsf.de/ihg/mitoprot.html
By discriminating mitochondrial and chloroplast signal peptide
Predotar:http://www.inra.fr/Internet/Produits/Predotar/
By discriminating mitochondrial, chloroplast signal peptide
NNPSL:http://predict.sanger.ac.uk/nnpsl
By amino acid composition
SobLoc:http://www.bioinfo.tsinghua.edu.cn/SubLoc/
By amino acid composition
SubLoc: http://www.bioinfo.tsinghua.edu.cn/SubLoc/
By more sequence information besides the amino acid composition
一篇文献:http://cubic.bioc.columbia.edu/papers/2003_loci_3dnet/paper.html
“Better prediction of sub-cellular localization by combining evolutionary and
structural information”
找到一些晶体学的原理。一起学习。
蛋白质纯化与结晶
获得蛋白质的晶体结构的第一个瓶颈,就是制备大量纯化的蛋白质(>10 mg),
其浓度通常在 10 mg/ml 以上,并以此为基础进行结晶条件的筛选。运用重组基
因的技术,将特定基因以选殖(clone)的方式嵌入表现载体(expression vector)内,
此一载体通常具有易于调控的特性。之后再将带有特定基因的载体送入可快速生
长的菌体中,如大肠杆菌(Escherichia coli),在菌体快速生长的同时,也大量生
产表现载体上的基因所解译出之蛋白质。一般而言纯度越高的蛋白质比较有机会
形成晶体,因此纯化蛋白质的步骤就成为一个重要的决定因素。
在取得高纯度的蛋白质溶液后,接下来就是晶体的培养。蛋白质晶体与其他化合
物晶体的形成类似,是在饱和溶液中慢慢产生的,每一种蛋白质养晶的条件皆有
所差异,影响晶体形成的变量很多,包含化学上的变量,如酸碱度、沈淀剂种类、
离子浓度、蛋白质浓度等;物理上的变数,如溶液达成过饱和状态的速率、温度
等;及生化上的变数,如蛋白质所需的金属离子或抑制剂、蛋白质的聚合状态、
等电点等,皆是养晶时的测试条件。截至目前为止,并无一套理论可以预测结晶
的条件,所以必须不断测试各种养晶溶液的组合后,才可能得到一颗完美的单一
晶体(图一) 。
蛋白质晶体的培养,通常是利用气相扩散法(Vapor Diffusion Method) 的原理来
达成;也就是将含有高浓度的蛋白质(10-50 mg/ml)溶液加入适当的溶剂,慢慢
降低蛋白质的溶解度,使其接近自发性的沈淀状态时,蛋白质分子将在整齐的堆
栈下形成晶体。举例来说,我们将蛋白质溶于低浓度(~1.0 M) 的硫酸铵溶液中,
将它放置于一密闭含有高浓度(~2.0 M)硫酸铵溶液的容器中,由气相平衡,可以
缓慢提高蛋白质溶液中硫酸铵的浓度,进而达成结晶的目的(图二)。
蛋白质晶体在外观上与其他晶体并无明显不同之处,但在晶体的内部,却有很大
的差异。一般而言,蛋白质晶体除了蛋白质分子外,其他的空间则充满约 40 %
至 60 %之间的水溶液,其液态的成分不仅使晶体易碎,也容易使蛋白质分子在
晶格排列上有不规则的情形出现,造成晶体处理时的困难及绕射数据上的搜集不
易等缺点。但也由于高含水量的特性,让蛋白质分子在晶体内与水溶液中的状态,
极为相似。所以由晶体所解出的蛋白质结构,基本上可视为自然状态下的结构。
绕射数据的记录
X 光绕射点搜集,随着时间的推移,也由早期以闪烁计数器(scintillation counter)
一次记录一个点及使用许多 X-光片(X-ray film) 拍下绕射点,每张 X 光片都要经
过显影的步骤;之后进而使用多重金属丝板(multiwire)自动记录每次侦测到的绕
射点。目前使用的荧光记录板(image plate),则是利用磷化物经 X 光激发后会
产生荧光,经荧光扫描仪记录成数字模式的图像文件后,再以灯光照射一段时间
去除记录板上的荧光点,即可再进行下一次的记录工作。电荷耦合器
(charge-coupled devices, CCD) 的出现及技术的改良,可以不断地记录绕射点,
而不需荧光板扫描及去除步骤,如此将加速绕射点的搜集。目前的同步辐射光源
几乎全部使用 CCD 来记录绕射数据(图三)。
在实验室中的 X 光光源的产生,一般使用铜作为旋转式阳极靶(rotating anode),
可以产生波长为 1.54 Å Cu Kα放射光。不过,以目前发表的文献来看,在同步
辐射(synchrotron)光源所搜集的资料有增加的趋势,因为同步辐射所提供的 X
光束,其强度较实验室强约百倍、甚至上千倍,同时它也可以改变不同频段的波
长,以供非寻常散射(anomalous dispersion) 的实验研究
绕射原理
单一分子在 X 光下的讯号极弱,无法被记录下来,然而在晶体中通常是由许多
排列整齐的蛋白质分子所组成,当晶体内所有的分子(数量约在 1015 个以上)一
起在同一个方向上进行绕射且绕射波皆同步时,即足以使所产生的讯号被记录下
来。每一个绕射波的强度与其振幅(amplitude)的平方成正比。但绕射波的另一
个变数,绕射波的相角(phase),则无法直接测量得到,必须利用其他的方法方
能获得(见相角决定方法)。若是绕射点振幅与相角都可获知,则可以进一步地来
计算晶体中的电子密度图。
下列方程式即是著名的傅立叶转换公式,ρ表示在晶体中任何一个位置上(x, y, z)
的电子密度,φhkl 为绕射光相角,|Fhkl|为绕射光振幅,可由实验测得的绕射光
强度开平方获得。
所以若是记录了所有的绕射波的强度(h,k,l),并计算出所有绕射光的相角,带入
这个公式,蛋白质在晶体内的结构,就以电子密度图的方式呈现在我们的眼前了
(图四)。
相角决定方法
决定相角通常有三种常用的方法,分别是同型置换法(isomorphous replacement
method) 、非寻常散射法(anomalous dispersion method) 以及分子置换法
(molecular replacement) ,现在分述如下:
(1)同型置换法
同型重原子置换法最早的应用是在 1954 年,用来解出血红蛋白 hemoglobin 的
相角,需要在晶体蛋白质的内部加入重原子。通常以浸泡的方法使重原子能够渗
透(diffuse) 进入到晶体内部和蛋白质结合。这些重原子对 X 光产生较大的绕射,
对绕射点的强度会有明显的差异,根据这些差异,可定出重原子的位置,并进而
推算出蛋白质晶体绕射光的相角。理论上,若是只获得一组重原子衍生物数据
(single isomorphous replacement, SIR),经计算后,其解并不是唯一的;因此
通常会结合数个不同的重原子衍生物所得到的数据(multiple isomorphous
replacement, MIR), 来求得更精确的相角。
(2) 非寻常散射法
较重的原子会吸收特定波长的 X 光,运用接近吸收边缘(absorption edge)的 X
光进行绕射实验时,会产生不寻常的 X 光散射或吸收现象,称为非寻常散射
(anomalous scattering),此一现象可导致绕射振幅及相角的改变。经由数个不
同波长的 X 光照射,记录吸收边缘前后所产生的不同绕射结果,可依此计算出
相角。由于它使用数个不同波长,所以称为「多波长非寻常散射法」
(multiwavelength anomalous dispersion, MAD) 。使用这个方法的前提是 X 光
的波长需依重原子的特性加以调整,而一般在实验室的 X 光通常是属于固定波
长的,并无法满足这个方法,所以非寻常散射法就需要利用同步辐射可变波长的
光源来完成(5)。目前很多实验室使用硒化甲硫胺酸(selenomethionine)来取代甲
硫胺酸 (methionine),在养菌的同时加入硒化甲硫胺酸,使蛋白质的形成过程
带入含有重原子硒的硒化甲硫胺酸,接下来养出蛋白质晶体,在硒的吸收边缘进
行绕射实验,并运用 MAD 的方法来计算出蛋白质晶体绕射波的相角(图四)。
(3) 分子置换法
若是一个未知的蛋白质与另一已解出结构的蛋白质,在胺基酸序列具有 30 %以
上的一致性(identity),表示这两个蛋白质的结构可能类似,可以利用分子置换法
来计算出未知蛋白质的相角。利用已知蛋白质之结构分子带入晶体中寻找旋转及
位移的可能位置,解析出结构。随着蛋白质结构的增加,可以发现类似的蛋白质
具有相同的折迭方式,而出现新的折迭的机率也相对减少,所以只要未知的蛋白
质在蛋白质数据库(Protein Data Bank, PDB )中,找到序列上具有同源性
(homology)的已知结构时,即可在取得晶体绕射数据后,快速地运用分子置换法
来解决相角问题。
三维结构模型之建立及修正
藉由电子密度图的三维构形,可将每一个胺基酸依蛋白质序列建立蛋白质的起始
模型。蛋白质的起始模型,常由于相角的解不够完美,使计算出来的电子密度图
产生误差,误导模型的走向,因此需要做进一步的改善,称为修正(refinement)。
修正的目的在于进行立体化学(stereochemistry)(如胜 键键长、键角、胺基酸构
形)优化的同时,减少计算与实验绕射点强度的差异,用来评估的数值则是「剩
余值(R-factor)」:
其中 Fobs 及 Fcalc 分别表示观察值与计算值的绕射光振幅。尽可能将剩余值降
到最低,直到进一步的修正无法减少其值为止,即达最终的蛋白质结构模型。大
部分修正后可接受的剩余值约 0.2 (20%)。但低的剩余值,并不代表其结构就是
正确的。已有数个例子显示在蛋白质结构上的某些部分不正确时,仍可能获得较
低的剩余值。因此 Brünger (7)在 1992 年提出一个交互验证的程序,也就是取
出部分的绕射点(建议为 10%),排除于修正的程序之外,以对结构的正确性,提
供个别的检查,称为「自由剩余值(R-free) 」,其计算方式同剩余值。除了剩余
值外,分辨率是另一个判断晶体结构可信度的重要数值。分辨率在蛋白质晶体结
构中通常是定义为:可以分辨二个平面的最小距离。分辨率对模型的建构所造成
的影响,可以直接由电子密度图看出,在低分辨率(~6 Å )时,只能观察到由 α
螺旋(α-helix)所形成的圆柱形密度图;随着分辨率提高(3 Å ~ 2 Å ) ,主链与支
链结构就会出现,但个别原子仍无法由密度图中看出,除非分辨率可以达到 1.0
Å 或更高的分辨率。蛋白质结构所能达到的分辨率,主要是取决晶体内分子排列
的整齐程度。小分子晶体内并没有太多的水分子,所以常能得到分辨率高于 0.5
Å 的绕射数据。但因蛋白质结构由长的胜 链所组成,其间又是由较弱的氢键及
凡得瓦力所维系,造成蛋白质结构富有弹性,蛋白质分子与分子的堆栈也就没有
那么整齐。同时分子与分子之间的空隙由水分子来填补,也因这些空隙的水分子
排列比较紊乱,所以蛋白质晶体绕射出的结果,仅有少数高分辨率晶体,一般蛋
白质晶体结构的分辨率约在 2.0 至 3.0 Å 之间。
生物信息学简概及教程(经典)
一、数据库
注:Display 中选 FASTA 形式,显示原始的核苷酸数据,便于复制。
(2)dbEST
EST 来源于 mRNA
-基因片度(300-400bp,数据长度足以分析编码的产物)或者全基因(已知)
-5’端或 3’端的 cDNA 序列(EST)
-300-400bp single-pass sequence (可能有误,如果要求<0.1%的错误率,需
要测序 8-10 次)
-GenBank 中 71%以上的是 EST 序列。
http://www.ncbi.nlm.nih.gov/dbEST/index.html
(3)UniGene
来源于同一基因的非重复 EST,组成基因序列群(contig)
注:不同实验室各自采用 poly(T)15 法和随机引物合成的 cDNA(不完整),
不 同 的 cDNA 的 加 工 、 拼 接 , 形 成 重 叠 群 ( Contig )
http://www.ncbi.nlm.nih.gov/UniGene/
(4)dbSTS (sequence tagged sites)
a.短序列(200-500bp) b.已完成染色体上的定位 c.可以与电子 PCR 相连用
http://www.ncbi.nlm.nih.gov/dbSTS/index.html
(5)dbGSS (genome survey sequence)
a.基因组短序列 b. cosmid、BAC、YAC 外源插入片断末端序列 c. Alu PCR 序列
http://www.ncbi.nlm.nih.gov/dbGSS/index.html
(6)HTG (high-throughput genome sequence)
尚未完成测序的重叠群(>2kb) 更新快!!!
http://www.ncbi.nlm.nih.gov/HTGS/
(7)dbSNP
每 100-300bp 有一个 SNP
http://www.ncbi.nlm.nih.gov/SNP/
(8)EMBL
http://www.ebi.ac.uk/embl/
(9)DDBJ
http://www.ddbj.nig.ac.jp/
(10)EPD (Eukaryotic Promoter Database) 启动子数据库
http://www.genome.jp/dbget/dbget2.html
2.蛋白质数据库
(1)SWISS-PROT
http://us.expasy.org/sprot/
有详细的注释序列;与 44 个数据库相互参照(cross-reference)
(2)TrEMBL (translation of EMBL)
(3)PIR (Promoter information resource)
http://www-nbrf.georgetown.edu/pir/
表明了结构域
(4)PRF (Promoter research foundation)
http://www4.prf.or.jp/
(5)PDBSTR (Re-organized Protein data Bank)
http://us.expasy.org/sprot/prosite.html
蛋白质的二级结构、α-碳位置
(6)Prosite
蛋白质家族、结构域
http://us.expasy.org/prosite/
3.结构数据库
(1)PDB (Protein Data Bank)
http://www.rcsb.org/pdb/
(2) NDB (Nucleic Acid Database)
http://ndbserver.rutgers.edu/NDB/ndb.html
(3)DNA-bind Protein database
http://ndbserver.rutgers.edu/NDB/structure-finder/protein/index.html
(4)swiss-3D IMAGE
http://www.expasy.ch/sw3d/
4.酶和代谢数据库
(1)KEGG (Kyoto Eneyclopedin of genes & genemes)
http://www.genome.ad.jp/kegg/
(2)PKR (Protein Kinase Resource)
http://www.sdsc.edu/kinases
5.文献数据库
(1)PubMed
http://www.ncbi.nlm.nih.gov/PubMed/
(2)OMIM
http://www.ncbi.nlm.nih.gov/Omim
(3)Agricola
http://agricola.nal.usda.gov/
农业相关的文献
6.提交数据
GenBank
BankIt 提交
网上直接提交,立即得到临时编号(1 周内提供 Aceesion No.)
SequIn 提交 下载软件填写表格,自动确定 CDS、ORF 和查找重复序列、查载体
序列
用 Update 功能修改
二、检索数据库的方法
1、用关键词或词组进行的数据库检索 Text-based database searching
2、用和甘肃或蛋白质序列进行的数据库检索 Sequence-based database
searching
关键词:名词;描述性词、词组;Accession number
体系:Entrz;Sequence retrieval system (SRS);Integrated database retrieval
syst
检索
1、
用引
连续
2、
Wa
(1
优点
8 大
1、
Gen
2、
Pro
3、
Stru
4、
Tax
5、
Gen
6、
Uni
注:
7、
Pub
MeS
8、
Pub
检索
(2
http
EBI
***
检索
索。
(3
http
优点
检索
三、
tem (DBGE
索须知
连接词:A
引号将两个
续出现;dis
wild card “
n*=所有以
1)Entrz(N
点:三种检
大类 29 个与
Nucleiotide
nBank; SNP
Protein se
teins
Structure d
ucture; Pub
Taxonomy
xonomy
Genome d
nomes; Ge
Expression
Gene; GEO
数据库来
Literature
bMed(文摘
SH
Others
bChem sub
索方法:a、数
2)SRS (Se
p://srs.ebi.
I 优点:检
*类 194 个数
索方法:a、
) b、深入
3)DBGET
p://www.g
点:与 KEG
索方法:a、
、核苷酸和
ET)
AND OR NO
个词组成一个
sease resis
“*” 放在单
以 Wan 开头
NCBI)
检索体系中最
与 Entrz 体系
e sequence
P; Gene; H
quence da
database(4
bChem; Co
y database(
database(2
enome Proj
n database
O Profiles;
来源于 mRNA
database(
摘); PubMe
bstance; Ca
数据库间的
equence Re
.ac.uk/ 有不
检索面宽 缺
数据库与 S
快速检索
检索(检索
enome.jp/
GG 相连,操
Basic sea
和蛋白质序
OT
个词组 “di
stance 表示
单词后使检索
头的单词 en
最容易操作
系相连的数
e database
Homologen
atabase(1)
4)
ompound;
(1)
)
ject
e(4)
GEO datab
A-cDNA-
(7)
ed central(
ancer chro
的检索 b、选
etrieval Sys
不同的版本
缺点:检索复
SRS 体系相
索(操作简单
索稍微复杂,
/dbget/dbg
操作较 SRS
arch b、Ad
序列为基础
isease res
示默认 AND
索范围扩大
nzyme*=e
作的; 缺点
数据库
e
ne; UniSTS;
3D-Domai
base;GENS
-protein(
全文
企业安全文化建设方案企业安全文化建设导则安全文明施工及保证措施创建安全文明校园实施方案创建安全文明工地监理工作情况
); Boo
mosome; P
选择数据库
stem)
本,可以下载
复杂
相连
单,检索的
,检索全部
get2.html
S 简单 缺点
dvanced se
础的数据库
istance” 表
D
大,但是专一
nzyme + e
点:检索范围
; ProSet
n; CDD
SAT
更确切)
oks; OMIM
PubChem B
库 (可以限定
载。
的数据库有限
的数据库,
点:检索面较
arch
库检索 Se
表示必须两
一性降低
enzymes 单
围有限
M; Journals
BioAssay; S
定检索内容
限,适用于
适用范围广
较窄
quence-ba
两个词先后顺
单复数同
; NLM cata
SiteSearch
容和时间范围
于明确目标的
广泛的检索
ased datab
顺序
alog;
h
围)
的检
索。)
base
searching
1、序列对位排列(sequence alignment)
2、将两条或多条序列对位排列,突出相似的结构区域(分析功能、分析物种进
化、检测突变,插入或缺
失、序列延长、序列定位、基因表达谱分析)