
DNA存储回顾系列由中科碳元牵头,独家联合再创Regenesis、Genomecraft合作创作,主要由马英新课题组、iSynBio爱星博、iSynBio造物合作推广。
C-ATOM 中科碳元丨DNA存储进展
▲Science 2012 George Church团队
01▶
DNA存储
随着数字信息爆炸式的增长,需要更高密度和更长期稳定的储存方案。DNA以其高存储密度、强稳定抗性、低维护需求和能源环保性能等,展现出极大的潜在优势。除此之外,DNA具有重要的生物学性能,拥有天然酶的读写途径、可以存入有机体实现“软储存”,这确保DNA存储有极大的发展空间,在可预见的未来仍将是有效的标准。
02▶
技术进展
以DNA进行存储,需要将信息转化为ATGC形式储存,这依赖于书写和读取长完美DNA序列。随着DNA合成和测序技术的快速发展,低成本、高通量的DNA合成与读取将不断提高DNA存储的限度。
在本研究中,Church团队采用“2对1”的对应关系,即二进制中“0”对应A/C,“1”对应G/T,以这种原则设计序列,加强了灵活性,避免了难以读取或写入的高GC区、重复序列及发卡结构等。
▲DNA信息存储示意图
编码的html书中句子的12字节部分被转化为bits(蓝色),带有19位条形码(红色),该条形码确定编码Bits在全书中的位置。然后使用“2对1”对应关系,将序列编码为DNA,同时避免4个或更多核苷酸重复并注意平衡GC含量。编码整本5.27Mb的html书使用了54898个159nt寡核苷酸,并从高保真DNA芯片上合成和洗脱。使用有限周期PCR扩增后,使用Illumina HiSeq技术(next-generation sequencing)单通道对寡核苷酸文库进行测序。对条形码和长度正确的阅读本进行筛选组装,再转换为bits以获得原始书籍。
结果表明,在5.27Mb的写入、放大、读取过程中造成了10bits错误,充分符合可靠储存的要求。
03▶
优缺点与展望
除了“2对1”灵活性有效避免难读取或写入序列的优点,本研究方法中拆分每个片段的一部分用来编码片段组装顺序,另一部分部分用来编码数据,有效绕过了大规模长DNA组装的困难,这种结合策略在未来也具备与DNA测序合成的兼容性。除此之外,使用纯体外方法,避免体内方法的克隆和稳定性问题。
研究中利用“二代测序技术”,比第一代编码中大量信息编码及解码成本低约10万倍,但目前对除世纪规模的数据以外,DNA书写和阅读的成本和时间依然是不切实际的。但合成测序、纳米孔测序等DNA合成和测序的最新进展在不断降低写入和读取DNA的成本,预示着DNA存储正快速提高着与主流存储技术的竞争力。
▲与商业报告中其他技术的信息密度比较
考虑到合成和测序中的错误很少重合,本研究中的方法没有做严谨的纠错,而是依靠每个片段拥有多个拷贝的信息冗余进行筛选。最终错误的数据块主要位于低聚物末端的均聚物段内,只有单序列覆盖度。仍有进一步改进空间。
未来工作可以使用压缩、冗余编码、奇偶校验和纠错来提高密度、错误率和安全性。也可以考虑使用其他聚合物或DNA修饰来使读、写和存储能力最大化。
这项研究为海量数据与DNA的结合提供了有力证据,提出了一种新的存储方式,能从根本上改变存储的规模和时间,为知识的保护和新知识的创造及发现提供了更多的可能性。
参考文献
文案:疯与鸽
审核:疯与鸽
排版:巳月
指导:神秘 Prof. Dai


