36 黄德双,张学工,田捷,刘湘军主编
DNA序列
分析
定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析
的现代信号处理方法初探
饶妮妮 俞心博
电子科技大学生命科学与技术学院,四川成都,610054
£li坠@女曼§!£:£亟女:£堕
摘要:识别编码区或寻找基因是DNA序列分析中最关键的工作。本文主要探索了现代信号处理方法用于解决编码区识别以
及基因定位等问
题
快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题
的科学性、有效性和准确性。在分析了传统方法弱点的基础上,提出用两种现代频谱分析法一AR模型
法和MUSIC法实现对蛋白编码区的预测,计算机仿真实验证实了两种新方法的有效性。通过比较发现,两种新方法在DNA
序列谱质量、分辨率和预测准确性等方面均优于传统方法;接着,以小波变换为分析工具,对DNA序列频谱进行包分解,并
对峰值进行重构来实现蛋白编码区的定位,仿真实验表明基于小波变换的方法定位编码区准确性高、分析速度快,还有助于
发现DNA序列中新的生物学规律。
关键词:DNA序列,编码区,基因定位,信号处理
Abstract:TheidentificationofproteincodingregionsandthefindingofgenesaletwoimportantworksinDNAsequenceanalysis.
Themainworksinthispaperisthatthemodemsignalprocessingtechniquesaleemployedtoidentifycodingregionsandlocatethe
genes,andtheeffectivenessandaccuracyofthemethodsaleexplored.Firstly,AR(auto—regression)andMUSIC(MultipleSignal
Classification)techniquesalepresentedtOpredictthecodingregionsonthebasisofanalysisoftheexistingmethod.Thesimulation
experimentsverifythattwonewmethodsalesuperiortOtheexistingmethodsinthespectrumqualityofDNAsequencesand
predictionresolutionandaccuracyThen,矾呵(wavelettransformation)isusedasananalysistooltomakewrap·decompositionof
DNAsequencespectrum.Theproteincodingregionsalelocatedbymeansofthereconstitutionofspectrumpeakvalues.The
simulationresultsshowthatthelocationaccuracyforcodingregionsbythemethod-basedonWTishighandtheanalysisspeedis
quick.Further,itisbeneficialtofindsomenewbiologicalregulatoryexistedinDNAsequencesfromtheexperimentresults.
Keywords:DNAsequence,proteincodingregion,genelocation,signalprocessing
1.引言
随着人类基因组测序的顺利完成,人类获得了大量生物分子序列数据。然而,测试DNA序列和蛋白质
序列仅仅是生命科学研究的第一步,揭示和利用这些数据所含的生物信息,特别是DNA序列中的遗传及调
控信息、蛋白质结构与功能的关系等是更为严峻的挑战和有意义的工作。
DNA序列是遗传信息的源泉,它对蛋白质的编码是人类感兴趣的重要内涵。在DNA分析方面,预测与
识别蛋白编码区或寻找基因是最关键的。由于人类基因组所拥有的DNA序列比编码蛋白质所需的多得多,
给定的一段DNA序列可能不为任何蛋白质编码,显然外显子不连续的问题等都是基因预测和识别的一大障
碍。早在18年前,国外学者(如Nakataeta1.,1985)在基因识别研究方面就做出了很大努力,提出了
一些合理有效的识别系统(如GIimmer,Genscan,Genie,GenwiseandGrail)。归纳起来,基因预测与
识别方法大体分为基于统计的方法、基于同源性的方法、基于机器学习(如人工神经网络)和基于数字信
中国科协第81次青年科学家论坛,北京,2003年11月 37
号处理的方法。由于现阶段对基因组的翻译过程没有充分理解,所以,现有方法预测基因时建立的预测模
型都不完善,导致现有方法存在~些问题,如经常丢失较短的外显子,识别准确率最高只能达到90%,迫
切需要发展准确率更高、完整性更好的新识别方法,为疾病的基因诊断、农作物改良增产以及有关生物技
术实验指导等服务。利用数字信号处理技术预测基因序列是美国哥伦比亚大学DimitrisAnastassiou教
授于2000年提出来的¨{1。他利用数字信号处理工具进行了DNA序列分析,形成了识别编码区和可读框的
算法。为此,清华大学的杨福生教授在2002年3月的《中国医疗器械杂志》上发表了一篇题为“数字信
号处理技术用于生物分子序列的分析”的文章旧1,文中主要介绍了DimitrisAnastassiou教授的工作并期
望引起国内同行对这一研究思路的注意。国内学者在用数字信号处理技术解决基因预测与识别的研究上起
步较晚。最近,大连理工大学的王宏漫博士在DimitriSAnastassiou教授的研究基础上,提出了一种蛋
白编码区识别的短时调频z变换方法H1。DimitriSAnastassiou教授和王宏漫博士的工作证实了信号处理
方法在DNA序列分析中的有效性和可行性。然而,他们采用的信号处理方法都较为传统,完全可以沿着他
们的研究思路,运用更新、更有效的信号处理方法实现更高准确率的基因预测与识别。本文基于上述思想
探索了现代信号处理应用于蛋白编码序列的预测和定位等研究工作。
DNA序列的数值映射方法分析
在用数学方法、物理方法和数字信号处理方法对DNA序列进行分析的研究中,首先需要把DNA序列(通
常是由A(adenine),C(cytosine),T(thymine),G(guanine)四种碱基组成的符号序列)按照~定的规则映
射成相应的数值序列。有关研究表明,DNA序列数值映射方法的优劣会直接影响到最终分析结果的生物学
意义的解释n’21。
目前常见的DNA数值映射方法有晦1:
(1).AA法:
U:』1 矿 ‰2A
m
【0 others
矿 nrn=T
other$
矿 nrn=G
others
旷 nra=C
others
(3)
(4)
1
0
n厂,=卜
l
0
器
书
p№
:
=
:
:。
:
ll激叫洗峥法叫
堍
‰
一啡
玑
一吼
%
38 黄德双,张学工,田捷,刘湘军主编
(5).Hydrogenbondeneryrule(SW规则):
卟{二。寥鬈:罗
(6).嘌呤一嘧啶法(RY法):
卟{二,箩鬟:丁G
(7).1(M(HybridMethod)法
蛤{二。箩’嵩:TC
(8).基于复域的映射法
n。=A
n。=T
nm=G
n。=C
(5)
(6)
(8)
其中,{‰}/,Y.:1表示DNA序列,Ⅳ为序列的长度。
根据以上8种常用映射方法自身的特点,可以大致把它们分为三类:第一类由以单碱基序列为基本
对象的A五法、T亍法、og法和cC法构成;第二类由以双碱基序列为基本对象的SW法、RY法和KM法
构成;第三类由基于复域的映射方法构成。
经分析发现,第一类编码方法将三种不同的碱基映射为同一数值,而第二类编码方法将两种不同的碱
基映射为同一数值,只有基于复域的编码方法将四种不同的碱基映射为不同的4个数值,从反映原序列信
息的角度看,基于复域的映射方法最优,第二类方法和第一类方法则较差。而且,这三类映射方法对序列频
谱的分配规律是不同的。
本文将采用基于复域的映射方法来得到数值DNA序列。
3.预测蛋白编码区的现代谱估计方法
随着基因数据库的不断丰富,对大量序列的进一步研究证实,大多数编码蛋白质的序列具有周期一3
性质,非编码序列(如内含子等)都不具有此性质。尽管已有研究表明,少量较短的编码序列并不具有周
期一3性质¨1,但利用这一性质来预测DNA序列中可能的蛋白质编码序列以及基因仍然是当前的~种可行
方法。
现代谱估计主要分为
参数
转速和进给参数表a氧化沟运行参数高温蒸汽处理医疗废物pid参数自整定算法口腔医院集中消毒供应
模型谱估计和非参数模型谱估计,参数模型谱估计主要有AR模型、MA模型、
ARMA模型等;非参数模型谱估计主要有最小方差方法以及MUSIC方法等。经分析和比较,本文拟采用AR
矿纩矿矿
1_1
1.:
一
一r●●●●●●●●●●,(●●●●●●●●【
=
m
U
中国科协第81次青年科学家论坛,北京,2003年11月 39
参数模型谱估计和MUSIC方法来实现对具有周期一3性质编码区的预测。
3.1脓模型法
AR模型又称为自回归模型,它是一个全极点的模型,该模型现在输出是现在输入和过去输出的加权和,
可用如下差分方程来表示:
P
工(,z)=~∑口,x(n-k)+u(n)
r=l
其中u(x)为白噪声序列,P为AR模型的阶数,a,r=l,2,⋯,为AR模型的参数。由上面的差分方程,得
到AR模型的转移函数形式:
进一步可得到利用AR模型进行功率谱估计的公式:
纵护西0-珂2
其中仃2为白噪声序列的方差。
由此可看出,要进行功率谱估计,必须求得AR模型的参数at,a2,...,ap及a2,它们可由Yule--Walker
方程求得。关于Yule--Walker方程的求解方法可参见文献[7]。与经典谱估计方法相比较,AR模型法具
有谱平滑和分辨率不受限制的性质。
本文以人类基因组基因图库的人类肝脏精氨酸酶基因片段(GI:10947138)为例,对比了周期图法与AR
模型谱的差异。
幻o
3
畿:
弘
龇幽-』山¨“』l山I|‘。11.4kIJLI‘』I.hI^IJ|II.^山㈦¨虬“。lI||Ilh-驰逸础“妊
O 01 O.2 O3 o4 O.5 O6 o7 o8 o.0 1
图1
图l中的(a)、(b)和(c)分别为人类肝脏精氨酸酶基因片段的周期图谱、阶数为25和200的AR
模型谱。从图中可以发现,当阶数较小时,它的AR模型谱较其周期图谱平滑,如图l(b)所示。随着阶
数的增加,它的AR模型谱较其周期图谱分辨率高,如图1(c)所示。可以说,AR模型是动态的功率谱描
述方法。在研究中也发现,由于模型的各阶系数是相关的,所以,为了获得好的频谱图,应综合考虑AR
40 黄德双,张学工,田捷,刘湘军主编
模型系数的选择,以达到准确预测蛋白编码区的目的。
3.2B.ISIC方法
由于信号向量已l与噪声空间的各个向量L+1,k+2,⋯,%+l都是正交的,因此,它们的线性组合也是正
交的,即:
口+1
已,(∑以。Vk)=0 i=l,2,⋯,M
k=m+l
令P(w)=[1,exp(jw),⋯,exp(jwp)]r,则有:
当W=M时上式应为零,那么
e(工)=i—L
芝以一eH(w)Kl
在W=Ⅵ处应是无穷。由于K是由相关阵分解得到的,而相关阵又是被估计出来的,必然存在误差,所
以Px(w。)为有限值,但呈现尖的峰值,其峰值对应的频率即是正弦信号的频率。由此可估计某序列x(n)的
功率谱如下:
(1)若令ak=1,k=M+1,⋯,P+1,所得估计即为MUSIC估计,即:
. 1
PMUSIC(W)=————ir二_——一已日(w)(∑akKKⅣ)P(w)
(2)若令以t=1/九,k=M+1,⋯,p+l,则所得功率谱称为特征向量估计,即:咖)2面骊1
下面同样以上述的人类肝脏精氨酸酶基因片段为例,对比了周期图法与MUSIC方法的差异。
薹1i匠==二二二Z薹i[==[==五
图2
圪Ⅳ
H
P
厶一
=Wk
Ⅳ
睨K厶一
江w
H
中国科协第81次青年科学家论坛,北京,2003年11月 41
图2(a)、(b)和(c)分别是人类肝脏精氨酸酶基因片段的周期图谱、阶数k分别为15和120时的MUSIC
谱。经过反复验证,当k=15时,MUSIC法能很好地反映频谱的走势,如图2(b)所示。在k=120时,MUSIC
法能有效地抑制杂乱波形而突出所需要的关键峰值(如周期一3谱峰),如图2(C)所示。MUSIC法与AR
模型法有很大区别,MUSIC法各系数是正交的,其峰值对应的频率即是正弦信号的频率,其功率谱的分辨
率要好于AR模型,能够更准确地预测未知蛋白编码序列。
基于小波变换的蛋白编码区定位
预测到一段DNA序列存在蛋白编码区以后,生物学家还必须确定其具体位置,以获得重要生物信息。
虽然频谱分析方法能够较准确地预测出蛋白编码区,但不能定位。因此,需要采用时频分析方法来实现一
段DNA序列中蛋白编码区的定位。小波变换具有多分辨率分析的特点,在时频两域都具有表达信号局部特
征的能力,是一种窗口大小固定不变,但形状可改变,时间窗和频率窗口都可改变的时频局部化分析方法。
小波函数多种多样,用不同的小波分解会得出不同的频谱,本文初步运用了Daubechiesl小波对DNA序
列进行分解,以实现对DNA序列中蛋白编码序列的定位。小波变换原理请参见文献[7],下面给出计算机
仿真结果。这里仍以人类肝脏精氨酸酶基因片段(GI:10947138)为例。
复域牛列的功率谱圈
㈧“枞‰础刎删础』‰
圈3.频率点i/3bpl上的小波包重构图
图3(a)和(b)分别是人类肝脏精氨酸酶基因片段的周期图谱和在频率点1/3bp。1上的小波包重构图结
果。图3(b)中常数£定为O.02,并对重构的序列取模,但从图3(b)中难以观测出蛋白编码区特征。理论
上,图3(b)中条状图的长度应该都为l,因为原DNA序列的模值为1,而条状图的疏密情况就应该反映对应
序列片段与频率点的相关度。经分析发现出现图3(b)结果的原因是:I)由于小波基函数是短窗口函数,
所以具有时间局部化特性。由于其窗口函数为非矩形窗,所以,对于采样段的边缘点数会发生变形,经重
构后无法恢复原值:2)由于采样为频率段,难以避免其它频率的干扰,重构后的序列为频率的加权,因此
其长度会小于1。
不妨认为条状图中长度小于0.4的值为干扰项,并删除。如图4为经过优化后的重构图。
一
一
一
。
¨
¨
¨
阳
。
黄缚敏,张学1,口捷.刘湘军主编
圈‘优化后的重构图 圈5复域序列的功能谱图
图4的结果特征明显,可以看出在650kp到l仉0kp片断条状图分布较密,于是取该段序列观测其频率谱,
如图5所示。从图中可以看出,在i/3bp2频率点上出现了频谱高峰,说明在650kp到1010kp片段中存在蛋白
编码序列。
5.结束语
DNA序列数值映射方法的提出使得用数学、物理和信号处理方法研究生命科学成为可能,同时还可以
简化生命科学问题的研究。例如,同源序列的比较问题可以转化为对应复数序列的距离测量。本文在分析
比较丁现有8种DM数值映射方法的基础上,得出了复域映射较其它7种映射更优的结论;在蛋白编码区
预测上,引入了AR模型法和MUSIC算法两种现代信号处理技术,理论分析和仿真实验均表明,两种方法
比经典谱估计能够获得更好的谱结构,有利于预测准确率的提高;最后以小被变换为分析丁具,对DNA序
列的频谱进行包分解,并对峰值进行重构,发现了条状图的疏密与对应序列在峰值频率点上存在相关性,
从而实现蛋白编码区的定位。
本文的工作虽然只是信号处理技术应用于DNA序列分析的一个初步尝试,但却反映丁该技术在生物信
息学领域广阔的应用前景。更深^的研究包括:
I 融合多种预测方法,进一步提高预测的准确率,发展更精确的蛋白编码区定位算法:
2 从系统的、综合的和动态的角度而不是局部的和静止的观点来研究编码区或基因的预测:
3 编制具有良好人机接u的、支持分布式资源的可重用软件系统。
参考文献
DAn∞n商删,“F岫u眦y-domain∞alysisdbhnd曲nuscqu一-”B嘶,脚如-16(I卸-2000.
nApastassi∞.‘q∞omlosignalp⋯q.”IEEESigMIP~ssingMasazJne,hly,2001
扬福生“数字信号处理技术应用于生物分子序列的分析?冉雹落嬲兢赫26(3),2002
I宏漫。欧宗英,“关于核甘酸序列顿谱分析方法的探讨?’若号舒g嗍,18(4),2002
I宏漫,欧宗英,“一种新的DNA序列映射规则厦其特征分机”学争卿】.18(2),2002
张静,右秀凡.“不具有3碱基周期性的编码序列韧探?’茔静忿争与生劣街理拦尼29口J.2002:267-27Z
张贤选著.t现代信号处4》北京:蒲华才学出牌拦.1995年1月
母
柞者俯舟:饶妮妮,盘,1963年生.救授、博士生导师19卵年9月至1998年9月和2003年11月至2004
年2月在薨国作学术访问。在国内外核心刊物、国际田自学术会议±发表涉及生物信息学、生物E学I程、
移动通信和教学研究
论文
政研论文下载论文大学下载论文大学下载关于长拳的论文浙大论文封面下载
约30篇。主持和参加国家重大I程项目、自然科学基金、教育部科技重点研究项
目、国防重点蜜验室基金、技科技基金等科研项目10项.犏写教材2部,获省级教学研究成果三等奖1项
(捧名第一)。四川省第九届政协委员.四川省学术与技术带头^后备^进,帅华中西医杂志》编辑部专
家委员会常务编委,国家自然科学基金同行评议专家,四JI省教育系统女教瞬I先进个^。
DNA序列分析的现代信号处理方法初探
作者: 饶妮妮, 俞心博
作者单位: 电子科技大学生命科学与技术学院,四川成都,610054
本文读者也读过(10条)
1. 邱莎.QIU Sha 几种基于机器学习的生物命名实体识别模型比较[期刊论文]-电脑知识与技术(学术交流)
2007,1(5)
2. 刘宏德.吴建盛.谢建明.杨锡南.徐自祥.孙啸.LIU Hong-de.WU Jian-sheng.XIE Jian-ming.YANG Xi-nan.XU
Zi-xiang.SUN Xiao 信号处理技术在生物分子序列分析中的应用[期刊论文]-生物信息学2008,6(4)
3. 张震.刘兴平.ZHANG Zhen.LIU Xing-ping 机器学习技术在生物信息挖掘中的
方案
气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载
探讨[期刊论文]-广西民族学
院学报(自然科学版)2006,12(1)
4. 王玉.饶妮妮.WANG Yu.RAO Ni-ni 基于傅里叶技术快速预测DNA序列编码区[期刊论文]-电子科技大学学报
2006,35(5)
5. 杨德印 生物领域知识对基因挖掘方法的影响[期刊论文]-电脑知识与技术2010,6(4)
6. 蔡颖 颅内压动力学仿真及现代信号处理[学位论文]2006
7. 王睿 虹膜定位和识别算法研究[学位论文]2006
8. 饶妮妮 基因组数据分析的信号处理方法研究[学位论文]2009
9. 郑刚 机器学习技术用于动态心电图波形筛选的研究[学位论文]2007
10. 李凌.蒋晓平.饶妮妮.尧德中.LI Ling.JIANG Xiao-ping.RAO Ni-ni.YAO De-zhong 《生物医学信号处理》实
验演示软件开发[期刊论文]-中国医学物理学杂志2007,24(1)
本文链接:http://d.g.wanfangdata.com.cn/Conference_7001153.aspx