
来源:Science网站、中国科学报、生物探索、煎蛋网、凤凰资讯等;
编辑:小喀
最讨厌的事情就是在用手机拍照或接受文件时突然发现手机内存不够了!
近几年来手机已经快成为人类生活的必需品了,照片、电影甚至各种办公文件也会存在手机中。尽管手机内存已由原来的4G、16G、64G增加到128G,但还是发现内存不够用。

其实,人类正面临着一个数据存储的问题——全世界在过去两年中产生的数据比之前的数据总和还要多,并且这种信息迸发的趋势很快就将超过硬盘能够承载的能力。
科学家们也一直在研究数据存储的问题,并且已经找到解决存储问题的方法了—DNA生物硬盘。

近日,来自纽约基因组中心和哥伦比亚大学的Yaniv Erlich和Dina Zielinski在Science期刊上发表新技术——DNA喷泉码,让DNA存储的广泛应用又进了一步。
什么是DNA生物硬盘
你可以把它理解为何我们现在用的硬盘一样,只是它的存储介质是DNA而已,并且它的体积要比普通的硬盘小很多、存储能力比普通硬盘大很多。

研究人员把数据中的“1”和“0”字符串转换成DNA序列中的4种碱基——腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T),从而进行数据存储。科学家证明他们可以有效地在1克DNA当中存储215PB(2.15 亿千兆字节)数据,原则上,它可以将人类有史以来的所有数据存储在一个大小和重量相当于两辆小货车的容器中。

DNA存储的原理
DNA存储的优势
科学家们之所以将DNA作为一种存储媒介是因为DNA存储有各种优势!
第一,占据极少的空间:每个碱基存储一个比特,而一个碱基只有几个原子那么大;
第二,超大容量:1克DNA当中存储215PB的数据;
第三,超级稳定:只要保持低温干燥和黑暗的环境,DNA可以保存几十万年之久;
第四,不会过时:只要人类社会还在读取和书写 DNA,他们就能够解码这些信息;
第五,备份容易:DNA可通过聚合酶链式反应任意翻倍。
DNA存储存在的问题
第一,成本高
要想将数据存储在DNA中,首先要合成DNA;要想读取DNA中的数据,要进行测序,两个过程的成本都非常高。欧洲生物信息学研究所的Nick Goldman和Ewan Birney在2012年发表他们的研究时,编码一兆字节的数据花费了12,400美金。而现在,只需要3,500美元。但即使这些成本进一步下降,合成DNA仍然是一个利基活动。目前世界上还没有哪种储存媒介的容量能够编码拍字节(petabyte)的数据。
第二,写入和读取耗时长
DNA合成和测序两个过程都耗费很长的时间,使用不够便捷。
第三、读取难
假如你将5个文件存储在1个DNA中,但你想指定读取其中一个文件时是不行的,必须将整个DNA测序后,再拼装成5个文件,然后找到你想要的某个文件。
看来这一研究虽然十分具有创新性,但DNA要作为储存媒介广泛应用还有很长的路要走。DNA硬盘要想发挥实用价值还需依赖于DNA合成技术和测序技术的发展与革新。
DNA存储研究历程
2011年,哈佛大学的George Church就进行过DNA存储,他利用由4个字母A、G、T和C组成的DNA链编码0和1的数字化文件,从而将一本具有52000个单词的书籍编码到数千个DNA片段中。2012年,相关研究成果发表在Science期刊上。然而,他们的编码方案相对低效,每克DNA仅能存储1.28PB。
2013年,欧洲生物信息学研究所的NickGoldman和Ewan Birney在Nature发表了他么的研究成果——他们在一颗DNA微粒中编码了莎士比亚所有的(154首)十四行诗,马丁•路德•“我有一个梦想”演讲的剪辑以及一份来自James Watson和Francis Crick的PDF格式论文。这颗DNA“硬盘”极小,当以至于当它被送到实验室时,Goldman看到的只是一个空管。

管底粉红色物质即DNA,少量DNA即可存储大量数据
不过,前面的这些研究都有丢失数据位的风险,因为我们只能合成或测序只有几百个字母的一小段DNA片段。如果我们想编码一大块数据,必须将其分解开来,然后拼装成杂乱的DNA,容易造成数据位丢失。虽然Goldman和Birney通过创建重叠代码来应对这一点,但不怎么高效。

工作中的Yaniv Erlich和Zielinski
2017年,来自纽约基因组中心和哥伦比亚大学的YanivErlich和Dina Zielinski在Science期刊上发表文章,他们采用DNA喷泉码的方法解决了数据位丢失的问题。
DNA喷泉码——一种将数据分割成小数据包(或“水滴”)的编码方式,通过这种方式你可以恢复整个数据,即使你只能捕获一个随机子集。无需担心错过了哪些信息,只要能捕获足够的“水滴”,你就可以重建整个数据流。 Erlich将这种方式比喻成做一个巨大的数独谜题:如果一些方块被填充进去,那么你可以推断出其他方块。Erlich表示这种方法比以前的研究高效了60%。
Erlich和他的同事将六份文件:计算机操作系统、电影、照片、科学论文、计算机病毒和亚马逊礼物卡编码进DNA分子中,这些文件总共2.14×106字节,共72,000个DNA片段文库,然后对它们进行测序,解码和重新装配。在这个过程中,他们丢失了2000多个碎片,但他们最后仍然完美地重建文件。
随着DNA合成和测序技术的发展与革新,DNA存储能广泛地应用于人们的生活、工作中,到时候再也不用担心内存不够的问题了。


