首页 遗传密码和DNA序列的高维空间数字编码

遗传密码和DNA序列的高维空间数字编码

举报
开通vip

遗传密码和DNA序列的高维空间数字编码遗传密码和DNA序列的高维空间数字编码 生物物理学报 第十六卷 第四期 二 ???年十二月 ACTA BIO P HYS ICA S I NICA Vol . 16 No . 4 Dec . 2000 遗传密码和 D NA 序列的高维空间数字编码 1 2 3 1 1陈惟昌 , 陈志华 , 陈志义 , 王自强 , 邱红霞 ( 1. 中日友好临床医学研究所生物物理研究室 , 北京 100029 ; 2. 中日友好临床医学研究所生物化学与分子生物学研究室 , 北京 100029 ; ) 3. 中国科学院自动化...

遗传密码和DNA序列的高维空间数字编码
遗传密码和DNA序列的高维空间数字编码 生物物理学报 第十六卷 第四期 二 ???年十二月 ACTA BIO P HYS ICA S I NICA Vol . 16 No . 4 Dec . 2000 遗传密码和 D NA 序列的高维空间数字编码 1 2 3 1 1陈惟昌 , 陈志华 , 陈志义 , 王自强 , 邱红霞 ( 1. 中日友好临床医学研究所生物物理研究室 , 北京 100029 ; 2. 中日友好临床医学研究所生物化学与分子生物学研究室 , 北京 100029 ; ) 3. 中国科学院自动化研究所国家模式识别实验室 , 北京 100080 ( ) ( ) ( ) ( ) 摘要 : 二进制数字化编码是信息科学最基本的编码方式 。用 0 00、1 01、2 10和 3 114 ( ) 个数码对 4 种碱基 C 、T 、A 、G进行二进制数字编码 ,共有 24 种可能的编码组合 ,其中 8 种满足碱 基互补法则 ,它们是拓扑等价的 。按碱基分子量大小排列的编码格式 : 0123/ C TA G 是最理想的编码 ) 格式 。用二进制数对 D N A 的字符序列进行编码 ,有以下优点 : 1压缩信息冗余度 ,提高编码效率 ; ) ) 2可以对碱基的结构 、功能基团 、碱基互补 、氢键强弱等性质进行编码 ; 3D N A 序列的数字编码具 ) 有严格的大小顺序 , 即具有全序性质 ; 4D N A 数字编码的对称性程度 , 与遗传密码简并度的对称 ) 性一致 , 并可得出氨基酸遗传密码的高维空间连通性简并法则 ; 5可以方便求出任意碱基重复单 ) 元的重复系列的数字编码法则 ; 6根据高维空间汉明编码距离的定义 ,可以确定任意多个 D N A 序 ) 列之间的信息距离和它们的交空间和并空间 , 对 D N A 序列生物信息学的分析研究有重要意义 ; 7 D N A 序列的数字编码可以方便进行各种 数学 数学高考答题卡模板高考数学答题卡模板三年级数学混合运算测试卷数学作业设计案例新人教版八年级上数学教学计划 运算和逻辑运算 ,对促进 D N A 生物计算机的发展 ,可 有重大推动作用 。 关键词 : 数字编码 ; D N A 序列 ; 遗传密码 ; 高维空间 ; 汉明距离 ; 生物计算机 ( ) 文章编号 : 1000 - 6737 200004 - 0760 - 09 中图分类号 : Q 617 文献标识码 : A 1 D NA 序列数字化编码的生物信息学意义 DN A 序列是生物遗传信息的载体 。人类基因组 计划 项目进度计划表范例计划下载计划下载计划下载课程教学计划下载 已基本完成 。DN A 序列的数据库已经积累了数十亿年以来生物进化的大量数据资料 , 破译这些 DN A 序列密码的生物学意义 , 弄清 DN A 序列与生物进化 ,细胞功能 ,遗传机理和疾病发生的关系 ,已是目前生物信息论学家和数 1 学家的迫切而艰巨的任务 。在分析 DN A 序列的过程中 , 对 DN A 序列进行数字化编码具有 十分重要的意义 。数字化是当前信息革命的主要趋势 。在信息论中已经知道 ,信息的最基本的 ( ) 编码方式是二进制数字编码 bi na r di i t al co di n , 即每一种事件 , 都可以用 0 或 1 状态以 y gg 及 0 与 1 的组合状态进行编码表示 。数字编码的优点是简单明了 ,便于存储和查询 ,便于进行 ( ) 数值运算和数据处理 。因此将大量的分子生物学数据转化为数字生物学 di i t al biolo ,将 ggy是生物学发展的必然趋势 。 目前 DN A 序列编码仍然采用 T 、C 、A 、G 4 个字母对胸腺嘧啶 、胞嘧啶 、腺嘌呤和鸟嘌呤 收稿日期 : 2000 - 03 - 16 基金项目 :国家自然科学基金资助项目 作者简介 : 陈惟昌 ,研究员 , 电话 : 010 - 64221122 - 4434 , E - mail :c he nwc h @mail . ea st . net . c n . ( ) ( ) ( ) ( ) 4 种碱基进行字符编码 , 因而还不是最基本意义上的编码 。应用 0 00、1 01、2 10、3 114 个数字对 DN A 的 4 种碱基进行编码 , 有以下优点 : ?. 数字码比字符码更加简单和基本 ; ?. 每个碱基的字符编码占用 8 个比特 ,而碱基的数字编码只占用 2 个比特 ,故此数字编码可以压 缩信息冗余度 ,压缩存储空间 ,提高编码效率 4 倍 ; ?. 数字编码可以表示碱基的各种特性 , 如 嘌呤与嘧啶 , 氨基与酮基 , 碱基互补 , 强氢键结合与弱氢键结合等 , 而且均有特定的规则可循 , 而碱基的字符码并不显含这些规则 ; ?. 数字编码具有严格的大小顺序 , 即具有全序性质 。所 以不同的 DN A 序列的数码亦可以按数字大小的顺序进行排序 ; ?. DN A 序列的数字编码可 以方便地进行数学运算 , 如用按位加运算可比较两个 DN A 序列的不同 , 可以进行互补运算 , 2( ) , 还可以对 DN A 数码序列进行傅立叶变换 , Wal sh可以进行序列排对 se nce ali me nt ue qg 变换 , 马尔可夫链转移概率分析等数学运算 ; ?. 由 K 个碱基组成的 DN A 系列共有 2 K 个比 () 特 位的数码 ,它是 N = 2 K 维空间的一个点 。应用高维空间的交运算和并运算 ,可以得到多个 DN A 数码序列的交空间和并空间 ,对分析不同 DN A 序列的相互关系 ,有重要意义 。 2 碱基数字编码的各种格式 2. 1 碱基数字编码的可能组合 。DN A 序列 ,由 C 、T 、A 、G 四种碱基排列而成 。因此对 4 种碱 ( ) ( ) ( ) ( ) 基进行数字编码 ,可用 0 00、1 01、2 10和 3 114 个数字对 4 种碱基进行编码 。这种编码 () 格式共有 4 ! = 24 种编码方式的组合 。但由于在二进制数字中 0 与 1 呈互补关系 ,即 ,0= 1 () ( ) ( ) ( ) ( ) 以及 ,1= 0 。因此在这 4 个数字中 0 00与 3 11互补 , 1 01与 2 10互补 ,而在 4 个碱基中 ,C 与 G 互补 , T 与 A 互补 ,因此 ,4 种碱基的数字编码 ,应满足互补法则 。C 、T 、A 、G 4 种碱 基满足互补法则的数字编码格式共有 8 种 , 即 : 0123/ C TA G , 0123/ CA T G , 0123/ GTA C , 0123/ GA TC , 0123/ TC GA , 0123/ T GCA , 0123/ A C GT , 0123/ A GC T 。其余 16 种数字编码格 式 ,因不满足互补法则而被摒弃。 例如 ,常用的遗传密码字典中 10 使用的字符排列顺序格式 0123/ TCA G 即不满足碱基与数字互 补法则 ,故不适用。 2. 2 碱基数字编码的二维空间平面 。二位二进制数编码 4 个顶 11 00 点 00 ,01 ,10 ,11 按汉明距离排列 ,组成一个二维空间平面 ,如图 1 。 8 种满足互补法则的碱基数字编码 , 亦分别组成 8 个不同 01 Fi. 1A r ra n e me ntg g 排列的二维平面 。可以证明 ,这 8 个平面是拓扑等价的 ,即通过 of ve r t ice s i n 2D sacep 旋转 ,中心反演和镜面反射等对称操作 ,一个编码平面可以变换 A G C ref lect io n alo nTA a xi s cloc kwi se ro t at io n 90? g A A C G T T C G T Fi. 2 Sm met ricalt ra n sfo r mat io n of ba se co di n la neg y g p 762 生 物 物 理 学 报 2000 年 成其他任一个编码平面 , 它们各顶点的拓扑关系不变 , 例如 0123/ C TA G 通过旋转及反射变 换 ,可以变成 0123/ TC GA 。如图 2 。 3 按分子量大小顺序排列的碱基数字编码( M 码) 在上述 8 种满足碱基及数字互补法则的编码格式中 , 我们建议采用 0123/ C TA G 这种按 分子量大小顺序排列的编码格式最好 ,其理由如下 : 3. 1 在化学上最先以原子量大小顺序排列出元素周期表 , 故用分子量大小顺序排列是有先例 的 。 3. 2 4 种碱基的分子量按大小顺序排列是 C = 111. 10 , T = 126. 12 ,A = 135. 13 , G = 151. 13 。故 按分子量大小顺序排列的编码格式为 : 0123/ C TA G 。此种方式的碱基数字编码方式可称之为 ( ) 分子量顺序编码 M 码。 3. 3 非常凑巧的是 ,按数码计算 ,两对互补数字之和相等 ,即 0 + 3 = 1 + 2 。而 C TA G 两对互补 碱基的分子量之和亦呈相等关系 , 即 C + G = 262. 23 , T + A = 261. 25 , 二者绝对误差为 0. 98 ( ) < 1 , 其相对误差为千分之三 3 ‰。故可以认为两对互补碱基对的分子量之和几乎相等 。另 外 ,在 RN A 中 , U 与 A 互补 , U 的分子量是 112. 10 , U + A = 247. 23 ,与 C 与 G 的分子量之和 差别较大 , 表明在 RN A 中 , 互补碱基对之间的质量对称性比 DN A 小 , 故 RN A 的稳定性亦较 DN A 小 。 3. 4 0123/ C TA G 编码格式可以反映出 4 种碱基的化学性质 。在碱基的两位二进制数字编码 中 ,首位称为结构编码位。 首位为 1 时编码嘌呤碱 Pu ,如 10 为腺嘌呤 ,11 为鸟嘌呤 ;当首位为 零时则编码嘧啶碱 P, 如 00 为胞嘧啶 , 01 为胸腺嘧啶 。而末位数字为功能基团的编码位 , 当 y ( ) ( ) ( ) ro u末位为 1 时代表酮基基团 keto ,如 T 01和 G 11; 而当末位为 0 时则编码氨基基团 gp () ( ) ( ) a mi no ro u, 如 C 00和 A 10。而gp ( )A 10 N H2 Pu :p uri ne W Pu 两对互补的碱基对呈对角互补关系 , 即 P:ri mi di ney p y () ) () (,00= 11 , ,C= G , ,01= 10 , N H2 :a mi no ro ugp S H ( )( )G11 C 00 () , T= A 。 C = O : keto ro ugp ( ) ( ) 3. 5 C 和 G 结合是 0 00与 3 11的互 S H : st ro nH bo n dg C = O H 补结合 , 共有 3 条氢链 , 属于强氢键结 Py W H : wea k H bo n d ( )T 01 ( ) ( ) 合 , 而 T 与 A 结合是 1 01与 2 10结 Fi. 3 Che mical co di n c ha r t ofn ucleo t i de ba se s g g 合 ,共有 2 条氢键 ,属于弱氢键结合。 3. 6 碱基数字编码与化学性质的关系 ,如图 3 所示 。 π 4 碱基的分子量顺序编码( M 码) 和电子能级顺序编码( E 码) 的比 较 3 π 王文清等根据罗辽复的量子化学计算结果,四个碱基的每一个电子共振能之比值为 , ( ) ( ) A : G : C : U T= 0. 32 : 0. 27 : 0. 23 : 0. 19 0. 17。故而提出碱基的能级顺序编码方式 ,即 0123/ 4 TC GA ,以 E 码表示 。并由此按易经 64 卦的排序对 20 种氨基酸的遗传密码进行数字编码。 通过 M 码和 E 码的对比 ,可以得出以下结论 : 4. 1 E 码可以由 M 码通过旋转及反射变换而得 , 各顶点的拓扑距离不变 , 因此 E 码和 M 码 () 是拓扑等价的 。见图 2。 ( ) ( ) π 4. 2 在 E 码和 M 码中同样存在 C + G? T + A 的质量和能量关系 ,其电子共振能之比值 ( ) ( ) ( ) C + G: U + A : T + A = 0. 50 : 0. 51 : 0. 49 ,三者几乎相等 。 () () 4. 3 在 E 码和 M 码中 ,同样满足碱基对的互补法则 ,即 ,C= G , , T= A 。 ( ) ( ) 4. 4 在 M 码中 , C 00和 G 11结合是强氢键结合 。稳定性强 ,符合实际情况 ; 但在 E 码中 T 编码为 00 ,A 编码为 11 ,不符合弱氢键结合的情况。 4 ( ) 4. 5 王文清用 E 码对 20 种氨基酸和终止密码子 X的遗传密码进行数字编码 ,其结果是,( ( ( ( ( ( ) ) ) ) ) F 0 , 16;L 1 , 17 , 32 , 33 , 48 , 49; V 2 , 18 , 34 , 50; I 3 , 19 , 51; S 4 , 11 , 20 , 27 , 36 , 52; P 5 , ) ( ) ( ( ( ( ) ) ) 21 ,37 ,53; A 6 ,22 ,38 ,54; T 7 , 23 , 39 , 55; C 8 , 24; R 9 , 25 , 41 , 43 , 57 , 59; G 10 , 26 , 42 , ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 58; Y 12 ,28; H 13 ,29; D 14 ,30; E 15 , 31; M 35; W 40; X 44 , 56 , 60; N 45 , 61; Q ( ) ( ) 46 ,62; K 47 ,63。故其排列很不规则 ,很难找出其中的排列法则 。 () 4. 6 我们通过对氨基酸遗传密码简并性 对称性进行深入研究 , 得出 0123/ C TA G 的编码法5则 ,与 M 码相一致 。用 M 码对 20 种氨基酸的遗传密码和终止密码子 X 进行数字编码 ,其结 ( ) ( ) ) ( ( ) ( 果十分规则 , 即 : P 0 , 1 , 2 , 3; L 4 , 5 , 6 , 7 , 22 , 23; H 8 , 9; Q 10 , 11; R 12 , 13 , 14 , 15 , 46 , ) ( ( ) ( ( ( ( ) ( ) ) ) ) 47; 16 20 26 28 31; T 32 , S , 17 , 18 , 19 , 44 , 45; F , 21; Y 24 , 25; X , 27 , 30; C , 29; W ) ( ) ( ) ( ) ( ) ( ) ( ) 33 , 34 , 35; I 36 , 37 , 38; M 39; N 40 , 41; K 42 , 43; A 48 , 49 , 50 , 51; V 52 , 53 , 54 , 55; ( ) ( ( ) ) D 56 ,57; E 58 ,59; G 60 ,61 ,62 ,63。可以看出 ,同一氨基酸的遗传密码子绝大多数按相邻 的数字顺序排列 。由此可得出十分优美的氨基酸遗传密码排列的 6 维空间图 。通过对氨基酸 5 遗传密码 6 维空间的分析可得出“氨基酸遗传密码简并的空间连通性法则”,即“除丝氨酸的 遗传密码子分裂为两个平行的分离子空间之外 ,其余 19 种氨基酸和终止密码子的遗传密码均 通过简并 ,形成独立的单一的连通子空间”。我们认为 M 码和氨基酸遗传密码有其必然的内在 联系 ,值得深入探讨 。故此 ,可认为 M 码优于 E 码 。 4. 7 还可以按英文字母的顺序对碱基进行数字编码 ,即 0123/ A C GT 。字母顺序编码格式可以 通过 M 码逆时针旋转 90?而得出 ,故与 M 码是拓扑等价的且满足碱基对的数码互补法则 。但 字母顺序编码纯属巧合 , 并不符合氢键强弱的结合法则 。又不符合质量或能量顺序的排列格 式 ,故此这种编码格式可不予考虑。 5 高维空间的拓扑性质 () K 个碱基组成的 DN A 序列 S, 共具有 2 K = N 位 比特的二进制数字 , N 位 0 和 1 的组 K N 合数共有 2个 , 组成 N 维状态编码空间的全部顶点 。例如 , 由 3 个碱基组成的氨基酸三联遗 6 传密码 ,组成一个 6 维空间 ,共有 2= 64 个顶点 。为了深入研究 DN A 序列高维空间数字编码 6 的特性 ,需要对高维空间的主要拓扑性质 ,作一重点介绍。 ( ) 汉明距离 Ha m mi n 5. 1 di st a nce 的概念 。汉明距离是信息编码理论中的一个十分重要的基 g 7 本概念 ,它度量两个信息编码的相异程度 ,同时它表示高维空间两点间的距离 。高维空间两 ( ) 个顶点 x和 x之间的汉明距离 dx, x, 等于 x和 x两点编码相异的位数 。例如 , 顶点1 2 h 1 2 1 2 ( ) ( ) 1011和顶点 0110相异的位数为 3 ,故它们的汉明距离为 3 。 ( ) 5. 2 N 维空间顶点的按位加运算 bi t wi se a ddi t io n o e ra t io n。按位加运算是电子计算机常 p 用的一种逻辑运算 , 其运算规则是 0 ? 0 = 0 , 0 ? 1 = 1 , 1 ?0 = 1 , 1 ?1 = 0 , 例如 1011 ? 1101 = 0110 。 764 生 物 物 理 学 报 2000 年 () 5. 3 高维空间顶点的共轭运算 co nua t e oe ra t io n: 共轭运算即电子计算机中的求反码运 j gp () () () () 算 ,其运算规则是 ,0= 1 , ,1= 0 ,例如 ,1011= 0100 。在 N 维空间中顶点 x 与 ,x互 呈共轭关系 ,且汉明距离等于 N 。通过共轭运算可以很方便求出 DN A 序列 S的互补序列 C,K K () () , SK = CK 。例如 : ,C TA CC GTCA = GA T GGCA GT 。 ( ) ( ) 高维空间顶点的汉明值 Ha m mi n5. 4 val ue 。顶点 x 与原点 0 00 0的汉明距离称为顶点 g ( ) ( ) ( ) ( ) x 的汉明值 Vh x,Vh x= dh 0 ,x。Vh x同时亦是顶点 x 的数字编码中取 1 的位数 ,例如顶 ( ) 点 101100共有 3 位取值为 1 ,故其汉明值为 3 ,且其与原点的汉明距离亦为 3 。 N 5. 5 N 维空间的作图法 。N 维空间的 2个顶点 , 可按其汉明值加以排列 , 构成 N 维空间的标 6) ( ( sace di me n sio n rah ofN p 准侧视图 st a n da r d si de gp 。具体作图方法如下 :将原点 0 00 N ) ( ) () 0放在最左侧 ,而与原点共轭的顶点 极点,= 2- 1 11 1,对称地放在最右侧 。汉明值 p p ( ) ( 相同的各顶点从小到大由下向上排列以组成汉明柱 Ha m mi n col u m n。汉明值为 i 0 ?i ? g ) ( ) N 的汉明柱共有 C N ,i 个顶点 。各个汉明柱则按汉明值的大小 ,由左向右呈递增方式排列 。 N 因此 N 维空间的 2个顶点即按二项式系数的方式排列 。N 维空间中任意一对共轭顶点 x 与() ,x呈中心对称关系 。图 4 为 4 维和 5 维空间的标准图 。 12 14 24 28 20 10 26 8 13 15 18 25 30 16 17 22 9 11 29 8 12 21 27 0 31 4 10 19 4 6 23 2 9 14 15 1 6 13 5 2 0 5 11 7 3 7 3 1 ( )()b a St a n da r d rah s ofhi hdi me n sio n saceFi. 4g p g p g () ( )A r ra n e me nt ofaSi de 4 di me n sio n b ve r t ice s i n 5 di me n sio n rah ofsaceg saceg p p p 5. 6 N 维空间两顶点之间的汉明距离 。顶点 x与顶点 x的汉明距离等于 x与 x按位加的和1 2 1 2 ( ) ( ) 的汉明值 ,例如 x = 0110, x= 1101,则1 2 ( ) ( ) ( ) dx,x= Vx? x= V1011= 3 。 h 1 2 h 1 2 h 应用上述 方法可以迅速求得任意二组 DN A 序列的汉明距离 。 5. 7 N 维空间中各维子空间的数目通过组合运算可以求出在 N 维空间中 , i 维子空间的数目 N - i ( ) ( ) ( ) ( ) ( ) DN ,DN = C N ,i ×2, 0 ?i ?N 。由此可求出 N 维空间中全部各维 0 至 N 维子空 i i N 6 间的总数为 3。 6 D NA 序列及其互补系列的数码位排列的顺序方向 ?3’设有一个由 K 个碱基组成的 DN A 序列 SK , 及与其互补的 DN A 序列 CK , 它们的 5’ 的排列方向是互逆的 : 编码数位 :高位 ?低位 S :K 5’ ? 3’ C :3’ ? 5’K 编码数位的排列方向一般是由右向左呈低位向高位的方向排列 。故此在考虑 DN A 序列 及其互补系列的数码位排列方向时 , S的数码位由低位向高位的方向是从 3’ 端向 5’ 端排列 ,K 而 C的数码位其低位向高位的方向是从 5’ 端向 3’ 端排列 , 以保证 C与 S的共轭序列K K K () , S相一致 。为了避免过于复杂 ,在以下的讨论中只考虑 DN A 序列 S,暂不考虑其互补系 K K 列 C的作用 。K 7 D NA 序列点突变的编码规则 () ( ) 在 DN A 序列的变异中 ,最常见的是其中一个 设为第 i 个碱基发生突变 1 ?i ?K,称为 () 点突变 oi nt。4 种碱基的点突变共有 12 种 。可分为三大类 。 m ut a t io n p ( ) 7. 1 转换 t ra n si t io n : 即只有功能基团的变化而碱基结构没有变化 , 相当于数字编码的末位 数字出现变化 ,而首位数字保持不变 ,又可分为 2 组 : ( ) ( )T 。[ P′; 00 [ 01; C [A P y y () 不加撇号表示氨基基团 , 加撇号表示酮基基团。在此组中 , 突变前后两个 DN A 序列的 ( ) Δ 汉明距离 d= 1 ,汉明值的变化V= ?1 , + 1 为 C ?T , - 1 为 T ?C ,下同。突变前后 DN Ah h 2i - 2 Δ 序列编码的数值变化X= ?2。i () ( ) B Pu [ Pu′; 10 [ 11; A [ G 2i - 2ΔΔ 在此组中 , d= 1 , V= ?1 , X= ?2h h i ( ) 7. 2 颠换 t ra n sve r sio n : 只有碱基结构的变化而功能基团没有变化 , 相当于数字编码中的首 位数字出现变化 ,而末位数字保持不变。 又可分为 2 组 : ( ) ( )Pu ; 00 [ 10; C [ A A P[y 2i - 1 ΔΔ在此组中 , d= 1 , V= ?1 , X= ?2。 h h i ( ) () ′[Pu′; 01 [ 11; T [ G B P y2i - 1 ΔΔ ,在此组中 d= 1 , V= ?1 , X= ?2。 h h i ( ) 7. 3 对换 t ra n sfo r ma t io n : 与颠换相似 ,但其碱基结构和功能基团同时都出现变化 ,相当于碱 基的数字编码中 ,首位和末位数字都出现变化 ,转变成互补的碱基。 又可分为 2 组 : ( ) ( )A P[Pu′; 00 [ 11; C [ G y 2i - 2 ΔΔ 在此组中 ,d= 2 , V= ?2 , X= ?3 ×2。 h h i ()( ) B ′[Pu ; 01 [ 10; T [ A P y2i - 2 ΔΔ在此组中 , d= 2 , V= 0 , X= ?2。 h h i ΔΔ 由上可见 ,不同类型的点突变 ,其相应的 d,V,和X亦各不相同 。h h i 8 D NA 重复序列的数值编码法则 ) ( reea t 。有在 DN A 序列中经常出现不同长度碱基单元的不同次数的重复序列Ta n de m p 些 重 复 序 列 其 重 复 次 数 的 多 少 , 与 遗 传 性 疾 病 密 切 相 关 , 如 在 脊 髓 小 脑 变 性 疾 病 中 的 n 8 ( ) CA G的重复序列 。DN A 的一定长度单元的重复序列排列比较规则 , 故而可以推导出其 766 生 物 物 理 学 报 2000 年 数值编码规则 。 次重复多聚单核苷酸链的数值编码如下 :n 8. 1 n n 2n ( ) ( ) ( ) A . ol C , C= 00= 0= 0 , pyn n 2n ( ) ( ) G , G= 11= 2- 1 , () B . ol py n n 2n ( ( ( ( ) ))) ( ) T T= 01= 1/ 32- 1,C. ol py n n 2n ( ) ( ) ( ) ( ) ( ) A A = 10= 2/ 32- 1。D. ol py 不同长度多聚单核苷酸链的数值编码见下表 。 Ta bl e 1 Di i t al co di n ofol n ucleo t i de sgg py n 1 2 3 4 5 6 n ( ) C0 0 0 0 0 0 n ( ) T1 5 21 85 341 1365 n() A 2 10 42 170 682 2730 n( ) G 3 15 63 255 1023 4095 8. 2 16 组多聚双核苷酸链的数值编码为 : n n 4n n 4n ( ) ( ) ( ) ( ) ( ) ( ) ( ) () ( ) A . ol CC= 0000= 0/ 152- 1, B . ol C T= 1/ 152- 1, py pyn n 4n n 4n ( ) ( ) ( ( ( ( ( ) ( )) ) )) C. olCA = 0010= 2/ 152- 1, () C G= 3/ 152- 1, py D. olpy n n 4n n 4n ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) TC= 0100= 4/ 152- 1, T T= 5/ 152- 1, E. ol py F. ol py n n 4n n 4n ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) TA = 0110= 6/ 152- 1, T G= 7/ 152- 1, G. ( ) olpy H. olpy n n 4n n 4n ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) I. ol A C= 1000= 8/ 152- 1, () A T= 9/ 152- 1, py J . ol py n n 4n n 4n ( ( ) ( ) ( ) ( ) ) ( ) ( ) ( ) () K. l AA= 1010= 10/ 152- 1, A G= 11/ 152- 1, opy L . ol py n n 4n n 4n ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) GC= 1100= 12/ 152- 1, M . ol GT= 13/ 152- 1, ( ) py N . ol py n n 4n n 4n ( ) ( ) ) ( ) ( ( ) GA = 1110= 14/ 152- 1, ( ) ( ) ( ) ( ) GG= 15/ 152- 1。O . olpy P. l opy 8. 3 任意重复单元 S的 n 次重复 DN A 序列的数字编码 p ( ) 设有一个由 个碱基组成的重复单元 S,共有 2位二进制数 = * p p 2* 3 * 2 * 1 ,其中 * p p( ) ( ) 的数值编码 , 则 S的 n 次重复 DN A 系列的数值编码i 1 ?i ?2为 0 或 1 。令 X S代表 S p p p p 为 : n ()n 2n - i 2n2p p p )( ) ( ) ( ) ( X S= X S 2- 1/ 2- 1= X S 2p p p ? i 1= 25 ( ) ( ) 例如 25 次的 CA G三核苷酸重复序列 CA G的数值编码为 : 25 150 6 150 ( ( ) ( ( ( ) ( )) ) ) X CA G= X 001011×2- 1/ 2- 1= 11/ 632- 1。9 讨论 9. 1 用两位二进制数编码 4 种碱基的关键是在 24 种可能的编码组合中选取一个最优的编码 格式 。通过以上分析 ,可以认为 0123/ C TA G 是最优的编码格式 。 9. 2 由于用数字对 DN A 序列进行编码 , 将使生物信息学进入数字生物学时代 。DN A 序列以 数字表示以后 ,就能很方便地进行数值运算和逻辑运算。 9. 3 由于每一个 DN A 序列必定对应于唯一的一个自然数 , 因此所有的 DN A 序列 ,除 ol py ( ) C之外都可以按自然数大小的顺序排序 , 因而具有全序性 。所以通过数值相减 , 很容易得出 两个 DN A 序列之间所有的 DN A 序列的数目 。例如在编码为 32568 的 DN A 序列和编码为 26532 的 DN A 序列之间共有 6035 个不同的 DN A 序列 。 9. 4 根据高维空间的拓扑性质 , 可以根据多个 DN A 序列的汉明距离比较其相似性 , 具有较大 汉明距离的两个 DN A 序列 , 其相似性较小 。同时可以比较多个 DN A 序列组成的并空间 9() 。co nu nct io n sace 维数的大小 ,以进一步研究多个 DN A 序列的相互关系 j p () 5 9. 最近 ,生物计算机 Bioco mut e r 研究的进展 ,引起了广泛的重视。 生物计算机是以 DN A p 10 序列为对象进行操作处理以求得正确解答的运算装臵 ,又名 DN A 计算机。生物计算机的工 ( ) 作原理可分为三个阶段 : A 设计合成阶段 , 通过精密设计合成大量各种不同的 DN A 序列( () ) Wa t so n st ra n d, 以代表特定数学问 快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题 中的大量的各种可能的不同的解答 ; B 排除运算阶 ( ) 段 : 以特定的 DN A 探针 Cric k st ra n d与代表正确解答的 DN A 序列进行互补结合 , 形成 DN A 双螺旋 ,而代表不正确解答的 DN A 序列则不能形成 DN A 的双螺旋 ,然后用外切核酸酶 () e xo n uclea se 清除那些不能形成双螺旋的 DN A 序列 。在除去第一种 DN A 探针结合以后 ,再 用第二种 DN A 探针进行互补结合及酶解 , 如此经过反复多次处理 , 直至留下代表正确解答的 ( ) DN A 序列为止 ; C结果读出阶段 : 用 PCR 方法将代表正确解答的 DN A 序列加以扩增读出 11 。生物计算机在操作运算时能一次筛除大量的不正确解答 , 类似于大规模并行运算的电子 计算机工作原理 ,因而比常规串行运算的电子计算机有更高的运算速度 ,特别适用于解决一些 () ( ) ro ble m和数理逻复杂的 N P 非多项式数学问题 , 如推销员的哈密尔顿路问题 Sale sma n p () ( )辑中的三元“或”子句问题 又称 3 - SA T 问题等 。生物计算机至少给我们以下两点启示 : A () 应用 DN A 序列进行大规模的并行运算是可行的 。B 由于在生物体内 , 多种 DN A 序列及与 () 其有关的生化反应 如互补结合 , 酶解 , 扩增等都是现实存在的 , 因而暗示在生物体内亦可能 存在某些 DN A 计算机的运算机制 ,这对进一步深入理解不同 DN A 序列的生物学功能可能有 12 重要意义。截至目前为止 ,在生物计算机中使用的代码仍是 4 种碱基的字符编码 ,还没有使 用真正意义的数字编码 。我们相信 , 应用 DN A 序列的数字编码将可能简化生物计算机中 () () Wa t so n st ra n d 沃森序列和 Cric k st ra n d 克里克序列的设计 , 对加速生物计算机的发展可 能有重要意义 。 参考文献 : 1 ( ) 陈润生 . 生物信息学J . 生物物理学报 , 1999 ,15 1: 5 - 12. 2 Tho m so n H , Cl ust al W , et al . I m rov i n t he se nsi t i v i t ororessi v e seue nce al i n m e n t t h ro u hp p g y f p g q g g seue nce w ei h t i n , osi t i o n s eci i c a e n al t ies a n d w ei h tq g g ppf gp pg m at ri x c hoi ce J . N ucl A ci ds R es , 1994 ,22 : 4673 - 4680. 罗辽复 . 物理学家看生命M . 长沙 : 湖南教育出版社 , 1995 ,55. 3 4 ( ) 王文清 , 周成 , 刘枫 ,等 . 遗传密码表与《易经》J . 北京大学学报〈自然科学版〉, 1998 ,4 4: 471 - 480. 5 陈惟昌 , 陈志华 , 陈志义 , 等 . 遗传密码的简并及其高维空间的拓朴结构J . 自然科学进展 , ( ) 1999 ,9 2: 175 - 178. 6 Che n W C , Che n Z Y , Wa n Z Q , et al . T ool oi cal s t r uct u re ot he hi h d i m e nsi o n s ace a n dg pgf g p i n o r m at i o n co d i n ot he bi ol oi calf g f g ne u r al net w o r k A . P rocee d i n s o1998 I n t e r n at i o n al Co ne re ncegf f ( ) Ple na r t al k o n ICN N & B ’ 98, 1998 , PL 19 - 24.o n N e u r al N et w o r ks a n d B r ai n C . y 7 Ha m mi n . Pre nt ice Hall , 1980 ,41 - 49. R W .Co d i n a n d I no r m at i o n T heo rMg g f y 8 陈惟昌 , 陈志华 , 范慕贞 ,等 . 脊髓小脑变性疾病中神经元损伤的分子机制J . 基础医学与临床 , 768 生 物 物 理 学 报 2000 年 ( ) 1995 ,15 6: 14 - 18. 9 Alt sc h ul S , L i ma n D . P rot ei nd at abase sea rc hes o r m u l t i le al i n m e n ts J .P roc . N at l . A ca d . S ci . p f p g U SA , 1990 ,87 : 5509 - 5513. 10 O 2000 ,403 : 143 - 144. i ha ra M , RaA .D N A co m u t i n o n a c hi J .N at u re , gy p g p ,2000 ,403 : 175 - 179. 11 L i u Q H , Wa n L M , Fr uto s A G , et al . D N Aco m u t i n o n s u race J .N at u re g p g f ( ) 12 邹承鲁 . 世纪之交生物学发展趋势J . 中国科学基金 . 1999 ,13 6: 349 - 351. D I GITAL COD I NG OF T HE GE NETIC CODO NS A ND D NA S E NCESUEQ I N HI GH D IM E NS IO N SPACE 1 2 3 1 1C H EN Wei - c ha n ,C H EN Zhi - h ua, C H EN Zhi - i, WA N G Zi - ia n ,Q IU Ho n - xiag yqg g ( De a r t m e n toB i oh s i cs , C h i n a J a a n F rie n ds h i I ns t i t u t e oM e d i ca l S cie nces , 1 . p f p yp p f B ei i n 100029 , C h i n a ; 2 . Dea r t m e n t oB i oc he m is t ra n d M olec u l a r B i ol o,j g p f y g y C h i n a J a a n F rie n ds h i I ns t i t u t e oM e d i ca l S cie nces , B eii n 100029 , C h i n a ; p p f j g )3 . N a t i o n a l L abo r a t o roPa t t e r n R econ i t i o n ,A ca de m i a S i n i ca , B eii n 100080 , C h i n a y f g j g i n i nfo r ma t io n sci2 i s t he mo st f u n da me nt al Abstra ct : Bi na r di i t al co di n co di n y gg g ( e nce . The re a re 24 ssi ble co di n a t t e r n sto e nco de t he 4 n ucleo t i de ba se s C , T ,A , opg p ) ( ) ( ) ( ) ( ) Gb y mea n s of 4 di i t s :A mo nt he se 24 a t t e r n s , o nl 8 0 00, 1 01, 2 10,3 11.g g p y ki n ds of w hic h a re i de nt ical f i t t he r ule a t t e r n sto co mle me nt a r oloicallp pgy p y of t he n ucleo t i de ba se s . It i s t ha t t he i n acco r da nce wi t h su e st e dco di n a t t e r ngg g p fo r t he n u2 t he se nceof molec ula r wei 3/ C TA G , i s t he be st co di n a t t e r nueht ,012q g g p bi na r di i t al co di n se ue nce s re vail s o ve rcleo t i de ba se s . The of DN A t he c ha ract e r y ggqp ( ) wi t h t he of t he DN A follo wi n a dva nt a e s :re du n da nc co di n g g g 1. To dec rea se t hey ( ) i nfo r ma t io n t he 2. n ucleo t i de co di n a n d i mro ve co di n eff icie nc ;The roe r t ie s ofg p g y p p ba se s , suc h a s : st r uct ure , f u nct io nal ro u, co mle me nt a r rela t io n shia n d t he st ro n gp p y p g ( ) a n d wea k h dro e nDi i t al co di n sof bo n d co n nect io n s , ca n al so be e nco de d ; 3. y ggg DN A se ue nce s o sse sst he se ue nt ial roe r t a n d ca n be u ni uel a r ra ne d acco r di n qpqp p yqy gg ( ) to t hei r size s ; 4. The sm met r oft he DN A di t al co di n i s i nacco r da nce wi t h t he iy y gg t he t he co do n s . The r ule of of of sm met r de ne rac net icde ne ra t eto icaleeeoloy y gy g g pg ( ) t he co do n s ca n al so be de ri ve d ; 5. The of of co n nect i vi t net icdi t al co di n a n eiy g gg y ( ) ea t sca n be ea sil Acco r di n to t he Ha m mi n di st a nce DN A t a n de m reo bt ai ne d ; 6.p y g g a n d lem ul t i i n t he hi hdi me n sio n sace ,t he i nfo r ma t io n di st a nce of p DN A se ue nce sg p q al so t he co nu nct i ve sace sca n be det e r mi ne d , t hi s ma rea t i mo r t a nce be of fo r j p yg p co nve nie nt fo r ma t he2 ( ) di t al co di n of DN A se nce i s ve r iuebioi nfo r ma t ic s ; 7. The gg qy fo r t he DN A bio2 ma t ical oe ra t io na n d lo ical oe ra t io na n d ma i ve a rea t i mactp gp y gg p co mut e r .p Wor ds : Di i t al co di n ;DN A se ue nce ;Ge net ic co de ; Ke y gg q Hi hsace ; Ha m mi n Bioco mut e rdi me n sio n di st a nce ; g p gp
本文档为【遗传密码和DNA序列的高维空间数字编码】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_180829
暂无简介~
格式:doc
大小:128KB
软件:Word
页数:24
分类:生活休闲
上传时间:2017-11-26
浏览量:18