SHANGHAI� REVIEW�OF� BOOKS
笔 记
我 们都知道DNA (脱氧核糖核酸)存着生物的生命信息和遗
传指令。 储存人造的数码信息? 还真
没听说过。
不久前, 欧洲生物信息研究所
(EBI)的高德曼(Nick Goldman)博士
及其团队在《自然》杂志今年1月号上
发布了一项研究:用DNA存储数码信
息。 文章详述了实验的总体设想、具
体方法和结果,以及费用
分析
定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析
。 学界
和业界为之轰动,称它为信息存储领
域的一个“里程碑”。
难怪如此, 数码信息存储已是
信息社会的一只烫手山芋。 互联网
时代,数码信息爆炸,以天文级数不
断增长。据美国IDC公司的最新研究
报告,2012年,全球生成和复制的数
码信息总量近3个ZB (ZB是信息量
单位 ,等于10的21次方 ;常见的GB
是10的9次方)。 IDC预测,数码信息
的总量将以每两年翻一倍的速度
增长,到2020年,达到40个ZB。 这到
底是多少呢?打个比方您就明白了。
全球所有的海滩加起来 , 大约有
700,500,000,000,000,000,000 颗 沙
粒 ;40个 ZB就是这沙粒总量的 57
倍 。 届时 ,咱们中国产的信息将占
全球总量的22%。 如此巨大的信息
量 ,好处是显而易见的 。 许多前人
没法想象 、难以完成的事 ,我们现
在拿着手机 ,点击几下 ,就把它做
了。 古人说,秀才不出门,全知天下
事 , 不就是今天网友生活的写照 ?
商业活动就更离不开网络信息了 ,
比如那些全球连锁店 ,可以实时收
集 、 分析各地分店销售库存数据 ,
随时调整订单进货 , 减低成本 ,提
高利润。 诸如此类,不胜枚举。 由此
还发展出一个新学科 : 大数据 (Big
Data;参阅拙文 《当心大数据偷了你
的隐私 》,载于2013年6月2日 《上海
书评》)。
然而,有一利必有一弊。海量信
息让存储空间叫急, 人力物力费用
不堪重负。 总部位于瑞士的欧洲核
研究组织 (CERN)就是一个典型例
子。 该组织掌管着大型强子对撞机
的运行和数据分析,每年产生约25个
PB (PB等于10的15次方 ) 的数据 ,
2015年将增至50-60个PB,相当于一
百八十多万张常规DVD的存量。按规
定,这些数据归档后,必须保存二十
年或更久, 存放在恒温恒湿的环境。
而且,每隔三四年,整个数据档案要
翻录到新的存储介质上,以确保信息
安全,便于跟新一代计算设备和技术
匹配。试想,保存并维护这个数据集,
得占多大的地方,花多少钱,费多少
人力! 这还只是一个机构的困难。 所
以,任何能减压的发明创造,都会受
到热烈欢迎。
为此,科学家一直在努力,寻找
新技术、新方法、新介质,解决存储问
题。从大软盘到小软盘,再到光盘,如
今是U盘 ;还有硬盘 、磁带 、云存储
等,新品种层出不穷。然而,存储能力
的增速就像矮人一样,远远跟不上信
息的步伐。 结果是,决策者常常不得
不在保证信息完整与节省经费之间
做选择,十分棘手。现在,高德曼博士
告诉我们,他们的发明,可以让仅一
克重的DNA存储2.2个PB信息量。 换
句话说 ,CERN每年60个PB的数据 ,
只需约28克DNA就解决了。 您说,大
家能不兴奋!
话 说回来 ,DNA的存储效能 ,这并不是什么新发现 。 众所周
知, 地球上一切生物的基因信息都
存在DNA上,我们每个人的身体就拥
有约30亿个碱基对。 但用DNA来存
储数码信息, 却是科学上又一次偶
遇的惊喜。 阿基米德泡在澡盆里想
出了浮力定律, 牛顿躺在苹果树下
发现了地心引力; 而高德曼和同事
一次在研究所附近的酒吧泡吧 ,忽
然灵感降临 , 得了想法———赶快掏
出笔,把一套DNA数码信息存储的编
码
设计
领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计
写在了纸巾上。
若能用DNA存储数码信息,当然
是再理想不过。 只是实现起来并不
容易,要攻克许多技术难关。 2012年
似乎是一个转折点。 高德曼团队和
哈佛大学的George Church团队相继
公布了各自的研究成果, 而前者的
成果更为完善 、 可操作而实用 。
Church教授评价说,因为高德曼团队
的工作,“我们终于有了一个真实的
领域”。
据高德曼博士的报告,DNA存储
数码信息的原理和过程似乎并不复
杂:用特定的碱基编码,将电子文件
编入DNA,合成后即可保存。 取用信
息时,用DNA测序仪,按编码规则将
该DNA序列转换解读回电子文件,便
能在电脑上使用了。 所以,编码的设
计是DNA数码信息存储成功的关键。
数码信息是一个
内容
财务内部控制制度的内容财务内部控制制度的内容人员招聘与配置的内容项目成本控制的内容消防安全演练内容
形式多样、数量
高速增长的集成。 因此,编码须有足
够的能力编辑无限扩大的信息集,并
忠实记录其中的每一分子, 准确度
100%,不容半点差错。
高德曼团队做到了。他们的方法
是这样的:首先,把电子文件的二进
制码(0,1)翻译成三进制码(0,1,2);
然后,用由DNA四个碱基(分别以它
们的学名首字母A、T、C、G代
表
关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf
)构成
的一套特定编码和规则,将三进制码
编译成一个DNA码序列。 接着,以每
25个碱基向后错位的方式, 把这个
DNA序列切割成若干个含100个碱基
的等长片段,直至整个序列的所有内
容都获得四个复本 (例如:1,2,3,4;
2,3,4,1;3,4,1,2;4,1,2,3)。 这 样
一来,当任何一个复本出错时,有另
外三个复本可供参考认证,可谓万无
一失。为了确定这些等长片段在这个
DNA序列中的准确位置,高德曼团队
给它们各自的首尾加上了索引标识。
用DNA编码编好电子文件后,再用专
门设备做DNA合成,信息写录就完成
了。 取用合成DNA中的信息时,先把
合成DNA放入标准化学试剂,然后用
DNA测序仪,根据索引标识,将各个
片段依序粘接成原DNA码序列,再译
回二进制码,形成电子文件,就大功
告成了。 高德曼团队十分谨慎,在编
码设计中不惜繁琐,引入多重防错检
错机制,为的是保证编辑和解读复原
达到零误差。
编码设计好之后,高德曼小组用
了五个不同类型的电子文件做测试:
一段26秒钟长的马丁·路德·金《我有
一个梦想》演讲录音;一篇关于DNA
结构的经典学术
论文
政研论文下载论文大学下载论文大学下载关于长拳的论文浙大论文封面下载
的PDF文件;莎
士比亚十四行诗全篇, 一张EBI大楼
的彩色照片;以及一段这次试验使用
的软件算法(a Huffman code)。 信息
总量不大,约739千字节,着重检验编
码对不同信息形式、内容以及格式的
适用能力。 DNA的存储能力的确惊
人,当装着这五个文件的合成DNA的
试管送到高德曼手中, 他看了半天,
竟然什么也没找到。 还是经同事指
点,才发现试管底部那颗灰尘般大小
的DNA。
然后 ,团队用DNA测序仪 ,把合
成DNA中的信息复原为电子文件 。
结果令人振奋: 它与原始电子文件
的重合率为100%。 不过这100%跟
着一段有惊无险的小插曲 。 在DNA
测序时 ,PDF文件中的两个 25碱基
小节不见了。缺了它们,就会出现误
差,这是绝对不能容忍的。好在编码
为每个小节提供了四个复本, 根据
复本,编码准确地完成了复原任务。
这次歪打正着, 证明了该编码防错
的优越性能。还好,团队很快找到了
丢失的原因,高博士保证,只需稍微
修改一下程序,类似问题以后不会再
发生了。
编码实验成功! 关键的一步迈
出,DNA作为信息存储介质的其他优
越性能也就变得实在了。除了存储密
度高,DNA还有一些突出的优点。 它
很容易保存 ,只需放在冷 、暗 、干燥
处,没有恒温恒湿的苛刻要求。 它还
非常稳定, 存放上百万年都没问题,
不会走样。另外,它合成测序,使用的
设备和方法都是生物学研究的常规
工具。这使得DNA的存储有效地避开
了因设备技术更新换代而起的许多
麻烦。所以DNA是数码信息长期存储
的理想材料, 而且存储的时间越长,
越能显出优越性。
这样看来,我们是不是就可以期
待在不久的将来用上DNA盘,把信息
存储的担忧甩到脑后去呢?还是那句
话,利弊相生。
D NA作为存储介质, 也有显著的弱点。首先是成本太高。高德曼
团队的实验费用高得惊人: 每一兆
(MB,10的6次方)字节的存储费用是
12,400美元,外加测序解读220美元。
这是常规磁带存写费用的一百万倍
还多。 甭说个人,就是尖端科研也用
不起啊。 所以,DNA存储必须大大降
低成本,才谈得上实际应用。第二,信
息写读非常耗时。数码信息编入DNA
目前只能由专门的DNA合成设备来
做;而从DNA中取读信息,重组复原
为数码文件,也很费时。 高德曼团队
用了整整两个星期,才完成五个文件
739千字节的复原。第三,DNA介质不
能重复使用,写录完毕,一般来说不
能修改,不能再用。可是,我们已经习
惯了常规存储 , 如硬盘和U盘的便
利。十来美元买一只16GB存储量的U
盘,插入电脑,就能周而复始地写文
章,做计算,听音乐,看录像;人机(存
储器)之间无缝交流,用我们普通人
的标准,几乎达到了合一的地步。 这
些“简单”的基本功能,DNA介质却难
以胜任。 所以,DNA存储介质离实际
应用还有漫长的路要走。
好在科学家大多是乐观派。高德
曼团队对DNA整体研究的发展和编
码本身的改进充满信心,认为DNA介
质用于数码信息长期存储,前景是光
明的。 并且指出,DNA起始费用是很
高,但那只是一次性的。 后续的保养
费用却极低,几乎可以忽略不计。 反
观常规介质,起始费用虽低,但后续
费用高,人力消耗也很大。 高德曼团
队计算过,以目前价格看,只有需要
保存六百年以上的信息,使用DNA存
储才划算;换言之,存储六百年,才能
使DNA一次性费用与常规介质的长
期维持费用持平。但根据近年来DNA
合成和测序费用大幅下降的走势,可
以预计,十多年内价格有望下降一百
倍。要是这样,存储期五十年以上,且
无需多次存取的信息,DNA介质就很
有竞争力了。
一位研究历史的朋友 , 听了这
个故事 ,大为赞叹 :这下好了 ,不仅
可以把无数史籍乃至一座座图书馆
都录入DNA, 咱们的日常生活也能
留给后人了———声像图文并茂 ,叫
千秋万代之后的他们, 接触真真实
实的我们!
是啊,那该多好! DNA和数码信
息携手 , 演绎着一个未来的故事 :
那承载生命的 ,让生命之造物得了
“永存”。
利求同
存储数码信息的DNA
2013.8.25��星期日10 上海书评
延伸阅读
● 《迈向实用高效能低保养的合成
DNA存储信息》
[英] 高德曼 (Nick Goldman, et al)
等,载《自然》(Nature),2013.1.23.
●《数码宇宙2020》
[美] 甘茨/雷恩泽尔 (John Gantz &
David Reinsel): (The Digital Uni鄄
verse in 2020: Big Data, Bigger
Digital Shadows, and Biggest Growth
in the Far East),IDC iView,
2012.12.
“格票货色”)。 想是作者不自觉地受
强势普通话影响, 不仅在叙事时,乃
至在对话中,也用了“这”。 以下例子
皆取自《引子》:
梅小姐这天,浅笑情颦,吐属婉顺,
一顿饭,三个人相谈甚欢,十分愉乐。
如果说此句属于叙事,其中措辞
有合理的“雅化”,“这天”夹在里面还
能接受。 下面是“陶陶笑说,寿头,好
故事……硬吊胃口作啥,碰得到这种
人,我吃瘪。 ”又,“沪生说,耶稣眼里,
天底下, 有一个好人吧……这有啥
呢,早点回去烧饭烧菜,坐马桶。 ”这
里是对话,理应写成“迪种人”或“格
种人”,“格有啥呢”。
别的用词也受普通话的影响 。
如,“沪生说,这也太吓人了,少有少
见。 ”上海话要说“赫人”,“赫煞人”。
又,“阿宝放下咖啡,感叹说,大妹妹,
还有小毛,多少年不见了,时光真快
呀。 ”他本应该说“辰光”的。
吴 方言早期以苏州方言为代表。一种方言之所以优胜,主要取
决于使用这种方言的地区的政治、经
济或文化优势。 苏州自春秋时代以
来, 一直是长江三角洲的中心城市。
到清朝,更是“红尘中一二等富贵风
流之地”。 《海上花列传》于1892年问
世,标志吴语小说的成熟。 此时上海
“夷场”虽已崛起,但沪语的辐射力依
然有限。 此后的情势演变不必多说。
1984年出版的 《简明吴方言词典》已
经断定:“随着政治、经济、文化的不
断发展,上海地位日益提高,上海方
言在吴方言内部影响逐渐增加;有些
词语便为其他地点方言所吸收。 今天
上海方言已成为吴方言的代表。 ”然
而,上海方言始终没有成为本地作家
自觉的写作语言。 我们一直要等到
2013年,上距《海上花》两个甲子,才
读到《繁花》。 这不仅是广义的吴语文
学,或狭义的吴语小说的“还历”或复
兴。 《海上花》专写妓院,《繁花》展示
了一段历史时期的上海社会百态和
众生相,乱花渐欲迷人眼。 更重要的
是,在沪语取代苏州话,成为吴方言
的代表之后 ,《繁花 》奠定了 “阿拉 ”
的乡音作为文学语言的地位。 一部
书是否当得起 “杰作 ”二字 ,或许需
要若干年后才能论定。 但是我们至
少可以说,《繁花》 是沪语小说成功
的开山之作。
一方面是普通话对上海方言的
影响,另一方面是上海方言在一定程
度上被普通话和其他地点方言认知
和接纳,加之当代沪语与普通话的差
别不像某些方言,比如苏州话和广东
话与后者的距离那么大。 所以我以为
非吴语地区读者读《繁花》也没有太
大的障碍。 《繁花》标志一个很高的起
点。 如果此后还有别的沪语小说陆续
问世,那么我们将不是只见《繁花》一
枝独秀,而是迎来一座姹紫嫣红开遍
的沪语文学花园。 ■