大数跨境
0
0

推荐 | MBEC 2014回顾 | Ibbad Hafeez 团队提出一种新型高容量、抗突变的DNA数据隐藏方法

推荐 | MBEC 2014回顾 | Ibbad Hafeez 团队提出一种新型高容量、抗突变的DNA数据隐藏方法 iSynBio造物
2022-05-11
0
导读:DNA存储回顾系列由中科碳元牵头,独家联合再创Regenesis、Genomecraft合作创作,主要由马英





DNA存储回顾系列由中科碳元牵头,独家联合再创Regenesis、Genomecraft合作创作,主要由马英新课题组、iSynBio爱星博、iSynBio造物合作推广。




C-ATOM 中科碳元丨DNA存储进展

巴基斯坦工程与应用科学研究所Ibbad Hafeez团队开发了一种高容量抗突变的DNA数据隐藏模型——DNA-LCEB,可以有效地活体生物DNA序列中隐藏数据。该模型共包含数据嵌入攻击纠错以及数据提取四个模块。通过将待隐藏信息转为二进制数据,并对数据进行加密无损压缩增加纠错码后,按照规则转为核苷酸信息,进而利用氨基酸同义替换策略,将信息嵌入原始DNA序列中。相关工作于2014年9月7日发表在Medical & Biological Engineering & Computing为利用生物体进行信息存储的研究带来了创新。原题DNA-LCEB: a high-capacity and mutation-resistant DNA data-hiding approach by employing encryption, error correcting codes, and hybrid twofold and fourfold codon-based strategy for synonymous substitution in amino acids。


Springer Link  2014 Lbbad Hafeez团队

01

背 景


信息在我们的生活中扮演着重要的角色,而数字时代信息产生的速度大幅提高,存储设备也不断更新发展,而脱氧核糖核酸(DNA)也被认为是存储信息的潜在介质。研究表明,数据可以在活生物体中存储100年,因为它可以随遗传信息一起从父母传递到后代。

数据隐藏有两大类:水印和隐写术。隐写术侧重于隐蔽通信,因此攻击者无法删除信息。而水印融合了同源宿主中的秘密信息,使得理论上不可能将信息与宿主本身分开。在DNA序列中进行数据隐藏的关键是生物体的存活和从DNA中成功提取水印。这意味着即使存在嵌入数据,有机体也应该在没有任何功能障碍的情况下生存和繁殖。因此,在氨基酸中进行同义替换来嵌入水印成为主要选择。

数据隐藏分类

02

模型框架


DNA-LCEB有四个基本模块:数据嵌入模块、攻击模块、纠错模块和数据提取模块
 DNA-LCEB模型框架图

03

嵌入模块


本模块是生成水印的核心模块其模块图如下:

嵌入模块示意图

待隐藏信息首先转换为二进制数据,在进行二进制数据处理时,主要涉及到三类编码算法:压缩加密和纠错。其中压缩使用了霍夫曼编码(Huffman Coding)游程编码(Run Length Encoding,RLE)以及改进的霍夫曼编码(霍夫曼编码和游程编码的二级混合)。加密使用了AESRSA算法,可根据所需的安全级别来进行选择。纠错使用了BCH码和RS码。

二进制数据处理相关算法

在二进制数据处理完成后,对原DNA进行氨基酸同义替换的规则又分两种情况。

① 四重简并密码子
因为同一种氨基酸对应四种不同密码子,且区别在第三位核苷酸上。故可使用下图规则,将两位二进制数据映射到一个核苷酸上,并用来替代当前密码子的第三位。

二进制-核苷酸 转换规则

② 二/三重简并密码子
指定规则表,每一位二进制数据,按照其为0或为1,在同义替换时,对应表中第二列或第三列密码子。规则表示例如下图。

二重简并密码子编码规则表

水印插入DNA的过程为:在第一阶段,生成开放阅读框架(ORF)并选择具有最高加水印能力的框架进行加水印。使用遗传密码表标记所有编码区域,然后将水印嵌入编码区的同义密码子中。每次嵌入时检查密码子是否会转为终止密码子,若是则不执行替换。插入水印后,将宿主 DNA 序列的其余部分附加到水印序列上。流程图如下:

数据嵌入DNA流程图

04

攻击模块


攻击模块充当伴随模块,通过模仿活生物体中的突变场景来帮助测试后续突变校正策略的性能。

05

纠错模块


纠错模块在所提出模型的提取端选择性使用。该阶段使用原始 DNA 序列重新对齐水印 DNA 序列,若氨基酸序列在任何位置不匹配,则检测到突变,再替换不正确的密码子来纠正突变。

纠错模块框图

06

提取模块


提取端在经过序列比对后进行水印信息提取,提取时遵循与嵌入端相同的规则。整个流程在实际场景中的示意图如下。

实际场景示意图

07

结果分析


测试共有两个数据集,都取自NCBI数据库。

① 存储能力
不同序列的差别较大。这主要取决于两个因素:一是序列中编码区密码子数占比,同序列长度下此比例越高则存储能力越强;另一个是编码区中四重简并密码子的占比,同编码区长度下此占比越高则存储能力越强。

本文使用单核苷酸存储位数(bits stored per nucleotide,bpn)来表示存储能力,数据集I结果可看下图。

数据集I bpn值

② 压缩技术分析
从数据集I和II的结果分析,改进的霍夫曼算法得到了最好的压缩效果。

③ DNA序列和氨基酸序列比较
DNA序列的大部分在加水印前后保持不变,而所有的氨基酸序列在加水印前后都保持了一致。因此本方法在嵌入水印后没有对蛋白质序列的生成产生影响。

④ 鲁棒性
DNA-LCEB 能够纠正 DNA 中的大多数突变,具有序列比对BCH码两层突变校正策略,倾向于在任何情况下最小化将带水印数据的丢失。

⑤ 数据保护机制
使用 AES 和 RSA 等不同的加密算法来保护信息,具有很强的保护能力。

⑥ 数据隐藏能力
DNA 数据隐藏的关键之一是增加存储容量。通过对数据集I上不同技术的bnp值比较,以及数据集 II 上不同技术的位存储(bit store,bs)比较,可看出 DNA-LCEB 存储信息能力均有明显优势。

数据集II不同方法bs值比较

08

优缺点及展望


虽然宿主的选择对实际效果的影响比较大,但DNA-LCEB模型在数据隐藏上具有存储容量大、对宿主干扰小、抗突变能力强、数据安全性高等诸多优点,较之前许多方法有了更多创新和更强的综合能力,为利用生物体存储信息带来了更多可能性。

DNA-LCEB模型有许多技术上的融合和创新,使其成为一种安全、稳健和高效的DNA数据隐藏方法,为未来利用生物体进行数据隐藏和存储也提供了更多的思路。


参考文献

[1] Hafeez Ibbad,Khan Asifullah,Qadir Abdul. DNA-LCEB: a high-capacity and mutation-resistant DNA data-hiding approach by employing encryption, error correcting codes, and hybrid twofold and fourfold codon-based strategy for synonymous substitution in amino acids.[J]. Medical & biological engineering & computing,2014,52(11). doi:10.1007/s11517-014-1194-2.


文案:光影
审核:疯与鸽
排版:巳月
指导:神秘 Prof. Dai



END


【声明】内容源于网络
0
0
iSynBio造物
合成生物学科普&最新合成生物学产学研资讯。
内容 239
粉丝 0
iSynBio造物 合成生物学科普&最新合成生物学产学研资讯。
总阅读72
粉丝0
内容239