大数跨境
0
0

利用FRAGMA算法对非Bisulifte的NGS数据中甲基化CpG的推断

利用FRAGMA算法对非Bisulifte的NGS数据中甲基化CpG的推断 Dr.X的基因空间
2023-12-06
1
导读:FRAGMA算法可以应用于推断普通NGS数据中单个CpG位点的甲基化状态

基于cfDNA片段组FRAGMA算法分析表观遗传特征

写在前面的
之前的推送中分享过卢煜明院士团队意识到基于Bisulfite的NGS甲基化检测技术中由于亚硫酸盐本身的理化性质特性会优先偏好性地降解DNA中富含非甲基化胞嘧啶的区域,从而使得基于亚硫酸盐的甲基化检测容易对样本的真实甲基化水平的估计产生偏差。由此,该团队为了避免使用Bisulfite引起的甲基化检测偏差,开发了基于PacBio平台的甲基化检测技术。但是测序通量低、测序成本高是当前任何一款三代测序平台暂时无法突破的两个瓶颈,因此该团队认为PacBio-based的甲基化检测技术至少在目前面向临床使用的前景评估中存在成本高的短板。所以,NGS测序仍然是目前适合面向临床使用的检测技术,但是能否使得NGS测序对甲基化检测脱离Bisulfite的限制是一个值得探讨并解决的问题。因此今天的推送将继续分享该团队围绕如何在普通NGS数据中检测甲基化的CpG而开发的FRAGMA算法。

cfDNA片段组特征与CpG甲基化的关系

       越来越多的研究揭示了cfDNA片段组的特征,例如核小体印记、序列片段末端motif、5’偏好性末端及锯齿状结构。目前已经有相关学者利用cfDNA片段组特征推断基因表达状态。因此是否甲基化也可能根据cfDNA片段组特征进行推断是一个值得探索的科学问题。
       为了探索cfDNA片段组与甲基化关系,作者首先聚焦于探索cfDNA片段组与CpG的甲基化关系。因为人类基因组中大部分CpG是甲基化的。该团队曾经的研究中揭示,无论是cfDNA锯齿状结构特征,还是cfDNA记录的来源组织特征,都与DNA内切酶的切割有关。所以作者很自然地想到是否DNA甲基化的特征也可能影响到DNA核酸内切酶的切割,进而使得发生甲基化的位点附近产生的cfDNA片段与未发生甲基化的位点附近产生的cfDNA片段具有序列上的不同。如果甲基化位点可以影响核酸内切酶切割,那么切割后产生的cfDNA在5’端或许存在较多的以CG开头的末端基序。因此,作者想到了使用窗口模型来衡量CpG的位点附近,比对上的cfDNA5’末基序是否具有一些特征。
       如下图所示,作者首先将CpG位点上下游5bp作为一个11-nt的窗口,利用该团队以前针对8名健康人血浆cfDNA的Bisulfite测序数据,发现了在Bisulfite数据中,大部分发生甲基化的CpG位点在甲基化的C位点处有明显的切割比例(Cleavage proportion),切割比例的计算是按照cfDNA-5’末端为某一碱基的cfDNA分子数量除以基因组对应位点的测序深度再乘以100%得到。如果CpG位点的C位切割比例越高,说明恰好以该位点作为5’末端首尾的cfDNA分子数量越多,说明以该位点为切割位点的偏好性越高。通过与发生甲基化的CpG和未发生甲基化的CpG位点相比,作者发现甲基化的CpG位点在C处具有2倍高的切割比例。并且这种现象不仅在Bisulfite-NGS数据中观测到,同样在普通NGS数据中观察到。并且,作者还比较了具有相邻两个CpG基序的切割模式,下图C展示出了,确实发生甲基化的CpG的C处具有更高的切割比例。

CGN/NCG比例评估甲基化水平

       前面的结果提示发生甲基化的CpG处产生的cfDNA的5’端C的比例较多。而未甲基化的CpG处产生的cfDNA的5’端C的比例相对没有那么多。因此为了提高分辨率,作者想到,如果在产生cfDNA分子数量接近(可以理解为测序深度一致的情况下)时,甲基化的CpG能切割产生更多的5‘-CGN-cfDNA分子,那么则说明该位点附近产生的5’-NCG-cfDNA分子少。如果用这两种cfDNA分子的比值作为评估甲基化水平的值,那么或许可以建立不依赖Bisulfite的NGS甲基化检测方法。如下图A所示原理。作者进一步将他们以前发表的数据拆分为高度甲基化区域(Hypermethylation CpG sites)和低度甲基化区域(Hypomethylation CpG sites),通过计算二者的CGN/NCG比值,果然发现高度甲基化区域的比值显著高于低度甲基化区域。作者同时还将这种比较放在了全基因组水平、Alu区域及CpG区域,CGN/NCG在这三个区域的比值同样符合这三个区域甲基化密度的结果。(下图C和D)。在这里要科普两个内容:

       1.ALU区域是短散布重复元素 (Short interspersed nuclear elements, SINE) 类,包含人类基因组中约 25% 的 CpG 位点。散在重复序列是与串联重复序列的组织形式不同的另一类重复序列,是散在方式分布于基因组内的散在重复序列。Alu重复序列由于这种DNA序列中有限制性内切核酸酶AluⅠ的识别序列AGCT,所以称为Alu重复序列。

       2.可能有的读者很纳闷,在我之前的推送中提到过人类基因组大部分CpG序列是的C是甲基化的,而CpG岛又是富含CG序列的区域,为什么CpG岛的甲基化水平如此低。其实,这里面有一个容易混淆的问题:甲基化的C一般处于CpG序列之中,而不是GpC岛。实际上,人基因组中,的确大部分的CpG位点(可能有90%以上)是被甲基化的,但是CpG岛的甲基化程度通常很低,这是因为CpG岛通常位于基因转录调控区域附近,与56%的人类基因组编码基因相关,如果CpG岛的C大部分被甲基化,那么容易使得转录起始因子等蛋白不容易结合DNA,从而使得转录沉默,导致基因不表达。因此为了维持正常的基因表达从而维持正常的生命机能,CpG岛的C反而甲基化程度低,这样可以确保不影响转录起始因子等蛋白结合到DNA的启动子区域来启动转录,进而使基因正常表达。

       作者进一步分析了CGN/NCG比值在GANS基因中的特征,GNAS基因,该基因位于人类20号染色体 57,415,043–57,415,176区域。GNAS基因在功能上作为G蛋白的组分,(G蛋白是鸟嘌呤核苷酸结合蛋白)可以参与多种信号转导途径,是调节细胞信号功能的重要信使蛋白。在作者前期的研究中,他们发现GANS的rs1800900位点存在两种等位基因A和G,携带A型等位基因的人在该位点附近具有较高CpG甲基化水平,而携带G类型等位基因的人在该位点附近具有较低的CpG甲基化水平。使用CGN/NCG比值可以准确区分这种因为等位基因造成的CpG甲基化水平差异(下图E和F)。此外,在妊娠早期的妇女中,作者也观察到CGN/NCG比值与来自不同基因组区域的胎儿特异性DNA分子的甲基化密度之间呈现相关性(下图G)

DNASE1L3对甲基化位点的片段产生cfDNA中起到重要作用

       DNASE1L3携带核定位信号,据报道存在于细胞核中并与染色质结合。根据最新报道在人血浆中检测到DNASE1L3蛋白。DNASE1L3可以在细胞内外发挥作用,通过其他研究者的结果推测DNASE1L3的活性可能影响了cfDNA的片段化模式。作者在以前的研究中分析过4个的血浆DNA切割模式与DNASE1L3缺陷的关系。他们再一次利用这项研究建立的方法重新分析了DNASE1L3缺陷的CGN/NCG模式,发现在发生甲基化的CpG位点处,原本应该切割比例高的位点,现在并没有那么高的切割比例。同时,与健康组相比,DNASE1L3缺陷型甲基化位点处CGN/NCG比值显著降低。尽管,DNASE1L3缺陷型的甲基化密度与健康组趋势一致,但是由于DNASE1L3缺陷,使用CGN/NCG比值去评估DNASE1L3缺陷型的全基因组甲基化会受到较大影响。这是由于可能DNASE1L3的活性对于切割基因组上甲基化的CpG位点有影响。

甲基化感知的切割模式告知组织cfDNA分子起源

       通过上面的研究,作者已经证明了cfDNA的切割谱与DNA甲基化具有高度相关性。作者所在团队先前的研究中已经证明cfDNA分子的来源可以使用组织特异性甲基化模型来确定。那么基于cfDNA切割谱能否推断cfDNA分子的来源组织值得被探索。作者同样利用了他们之前研究的14名肝移植受试者的血浆DNA样本。作者首先鉴定了肝脏特异性高甲基化和低甲基化的CpG位点。并利用供体特异性的等位基因来区分哪些cfDNA片段是来自于供体的。如下图所示,作者发现在高度甲基化区域,供体来源的cfDNA在CpG位点处具有更高的切割比例,并且供体来源的cfDNA比例越多,其切割比例(CGN/NCG)越高。在低度甲基化区域,供体来源的cfDNA比例越多,其切割比例越低。这种相关性揭示了在高度甲基化和低度甲基化区域,我们都可以使用CGN/NCG比值特征来推断cfDNA组织来源。

基于普通NGS的单个CpG位点甲基化状态预测模型建立

       前面的研究揭示出使用CGN/NCG可以在不依赖Bisulfite的情况下根据NGS数据推断甲基化状态。作者进一步基于CpG位点附近的切割模式来构建利用卷积神经网络算法的CpG位点甲基化状态。与之前的一篇推送类似,作者将Waston链和Crick链的CpG位点上下游以11-nt的窗口建立稀疏矩阵,每个矩阵的中间列是CpG位点的C,前后列对应CpG位点上下游5bp的碱基,矩阵的行是AGCT四个碱基,每一列的碱基与对应行的碱基中添入该位点的切割比例,其余位置以0填充。将Waston链与其对应的Crick链合并为一个大矩阵,利用已有的数据作为训练数据构建了CNN模型。作者进一步证明利用该模型可以成功区分甲基化分数大于0.5的甲基化位点。特别注意的是,作者所构建的CNN模型可以得到0.93的AUC值用于区分一个CpG位点是否高度甲基化。此外,作者还提到,如过只使用CpG位点周围的序列背景而不使用切割模式来训练模型,其AUC值将降低至0.72.

总结FRAGMA算法

       FRAGMA算法的核心思想在于作者通过数据分析发现了高度甲基化的CpG位点处经过切割产生的cfDNA的5’末端具有更高比例的CGN-cfDNA分子。从而使得CGN/NCG这一比值可以用于推断普通NGS数据中CpG位点的甲基化状态。

参考

  1. Zhou Q, Kang G, Jiang P, Qiao R, Lam WKJ, Yu SCY, Ma ML, Ji L, Cheng SH, Gai W, Peng W, Shang H, Chan RWY, Chan SL, Wong GLH, Hiraki LT, Volpi S, Wong VWS, Wong J, Chiu RWK, Chan KCA, Lo YMD. Epigenetic analysis of cell-free DNA by fragmentomic profiling. Proc Natl Acad Sci U S A. 2022 Nov;119(44):e2209852119. doi: 10.1073/pnas.2209852119. Epub 2022 Oct 26. PMID: 36288287; PMCID: PMC9636966.

写在后面的
其实,作者在论文中还进行更多的研究和分析。受限于推送字数,没有全部进行分享。FRAGMA算法在未来具有非常大的应用前景。但是目前FRAGMA算法可能只能对CpG的甲基化推断具有较高的准确性,对于其他碱基的甲基化,目前论文中还没有充足的数据进行支撑。


【声明】内容源于网络
0
0
Dr.X的基因空间
【中国科学院博士】10年生命科学数据挖掘研究经验,关注生物医药领域体外诊断(IVD)方向,如肿瘤早筛、传染病未知病原快速检测中的技术创新及其与人工智能(AI)的赋能应用
内容 176
粉丝 0
Dr.X的基因空间 【中国科学院博士】10年生命科学数据挖掘研究经验,关注生物医药领域体外诊断(IVD)方向,如肿瘤早筛、传染病未知病原快速检测中的技术创新及其与人工智能(AI)的赋能应用
总阅读0
粉丝0
内容176