大数跨境

1区7.5分!疫情基因组监测新标杆:三代测序生信分析精准捕获超低病毒载量样本中CHIKV完整基因组,低频变异检出灵敏度逆势反超二代平台!

1区7.5分!疫情基因组监测新标杆:三代测序生信分析精准捕获超低病毒载量样本中CHIKV完整基因组,低频变异检出灵敏度逆势反超二代平台! CNS生信新靶点挖掘
2026-05-08
2
导读:当基孔肯雅病毒疫情来袭,能否快速获取完整病毒基因组,直接决定溯源追踪和变异监测的成败。然而,临床样本中病毒载量常极低,传统测序方法要么灵敏度不够,要么扩增偏好性严重。最新研究系统比较了第二代与第三代测


当基孔肯雅病毒疫情来袭,能否快速获取完整病毒基因组,直接决定溯源追踪和变异监测的成败。然而,临床样本中病毒载量常极低(Ct值高达38),传统测序方法要么灵敏度不够,要么扩增偏好性严重。最新发表于《Emerging Microbes & Infections》的研究,系统比较了第二代(DNBSEQ-G99)与第三代(QPursue-6k)测序平台在200 bp和400 bp扩增子方案下的4种组合,对13例Ct 17-38的临床样本进行了全面评测。结果令人振奋:三代测序实现了99.9%的基因组覆盖度,且其覆盖均匀性显著优于二代平台——在二代测序深度严重塌陷的壳蛋白编码区,三代测序仍维持稳定覆盖。更惊人的是,三代平台检出1553个(200 bp)和756个(400 bp)独特变异,远超二代平台的416-417个,且能捕获大量VAF<0.5的低频变异!在Ct>35的超低载量样本中,三代测序的低覆盖区变异回收率高达44-77%,而二代测序不足20%。不过值得注意的是,三代测序也存在显著的负链偏好性,需要通过严格的链偏倚过滤来减少假阳性。研究还确认,所有4种方案在系统发育分型和谱系鉴定上完全一致,均可满足一线疫情监测需求——但若要深度解析病毒准种动态,三代测序无疑是最佳选择。

今天给大家解读一篇4月发表在《Emerging Microbes & Infections》上的题目为“Rapid and precise amplicon-based genome sequencing to preparedness and response chikungunya virus outbreaks.”的文章。该研究旨在确定用于CHIKV基因组监测的最佳测序框架。作者系统评估了四种NGS配置(2nd-seq-200bp, 2nd-seq-400bp, 3rd-seq-200bp, 3rd-seq-400bp),使用13份临床样本(覆盖从强阳性到弱阳性)。研究对比了测序深度、覆盖率、扩增偏差、变异检测能力(特别是低频变异)以及系统发育分型一致性。结果显示,第三代测序平台在均匀覆盖、低频变异恢复和低病毒载量样本性能上占优,而第二代测序平台在测序深度和产量上占优。两种平台在共识基因组分型和系统发育分析上结果一致。请持续关注我们,每天为您解读最新见刊的文献!)想薅生信资料羊毛?直接在对话框回复 “资料”,免费领取干货大礼包!包括数据集、绘图代码、图表复现、思路总结、参考文献……0代码!鼠标点点点即可轻松完成5-10分生信SCI全文复现!

不想做实验,没数据,还想要快速发表文章,没问题的!公共数据库就是我们的数据宝藏!没思路不用担心,作为专业的生信团队,我们很乐意为你们效劳,提供研究路线设计和数据挖掘分析,扫码联系我们吧!

图片





图片
图片





图片
图片
图片

团队成员合影(位于上海陆家嘴中心,可随时预约参观)


                                    (向下滑动查看更多)

图片
图片




题目:《快速且精确的扩增子基因组测序用于准备和应对基孔肯雅病毒爆发Rapid and precise amplicon-based genome sequencing to preparedness and response chikungunya virus outbreaks

发表期刊:Emerging Microbes & Infections

影响因子:7.5

研究背景

基孔肯雅病毒(CHIKV)对全球公共卫生构成重大威胁,有效的基因组监测对于追踪传播和进化至关重要。从低病毒载量、宿主背景复杂的临床样本中直接获取高质量全基因组序列仍具技术挑战。基于PCR的扩增子测序虽应用广泛,但扩增子长度的选择存在关键权衡:长扩增子降低组装复杂性但灵敏度低,短扩增子灵敏度高但引入更多组装错误和冗余。因此,需要开发和优化一种整合靶向捕获富集策略、兼容二/三代测序平台的全基因组测序方法,以精准重建CHIKV的进化和传播动态。



                            CNSknowall 平台 Pubmed+AI 快速提炼全文要点

                            图片



                            研究思路:

                              1. 实验设计
                                采用13份Ct值跨度大的临床CHIKV阳性样本,平行构建四种NGS配置的文库(共52个文库):2nd-seq-200bp、2nd-seq-400bp、3rd-seq-200bp、3rd-seq-400bp。
                              2. 数据生成
                                使用DNBSEQ-G99RS(2nd-seq)和QPursue-6k(3rd-seq)平台进行测序,获得12.6亿条通过质控的reads。
                              3. 分析流程
                                以Réunion Island 80652-1-1-1为参考,用BWA/SAMtools比对,iVar进行变异识别和基因组组装。过滤条件包括最低深度≥10、质量≥20、等位基因频率≥3%,并进一步进行链偏差分析(Fisher精确检验,P<0.05)去除偏差变异。
                              4. 评估指标
                                比较四种配置的测序深度、基因组覆盖率(单位点及滑动窗口)、变异数量、变异等位基因频率(VAF)分布、与Ct值的相关性、区域覆盖偏差、变异重叠情况,并进行系统发育分析验证一致性。
                              5. Ct分层分析
                                根据Ct值对样本分层,分析不同深度阈值下基因组覆盖比例,并评估低覆盖区域对变异检测的影响。


                              研究亮点:

                                1. 全面的平台比较
                                  对四种NGS配置(2nd-seq-200bp, 2nd-seq-400bp, 3rd-seq-200bp, 3rd-seq-400bp)在同一批临床样本上进行平行评估。
                                2. 低频变异检测能力
                                  第三代测序(3rd-seq)检测到大量低频变异(VAF < 0.5),而第二代测序(2nd-seq)主要捕获高频共识变异。
                                3. 低病毒载量样本表现
                                  在Ct值>35的超低病毒载量样本中,第三代测序在变异检测方面优于第二代测序,覆盖更均匀。
                                4. 覆盖均匀性优势
                                  第三代测序提供了更均匀的基因组覆盖(99.9%),且对衣壳蛋白等困难区域的扩增偏差更具韧性。
                                5. 平台特异性相关性
                                  发现变异检测灵敏度与病毒载量(Ct值)存在平台依赖的相关性:2nd-seq呈负相关,3rd-seq呈正相关。


                                研究结果:

                                  1. 测序深度与产量
                                    2nd-seq-400bp平均深度最高(152,430×),其次为2nd-seq-200bp(82,390×)、3rd-seq-400bp(62,729×)、3rd-seq-200bp(48,303×)。2nd-seq数据产量更高。
                                  2. 基因组覆盖
                                    第三代测序平台实现更均匀覆盖(99.9% ± 0.3%),略优于第二代(99.4% ± 1.4%)。所有平台在衣壳蛋白编码区域均显示深度和覆盖降低,但第三代测序衰减更轻。
                                  3. 深度与Ct值相关性
                                    2nd-seq深度与Ct值呈强负相关(200bp: r=-0.75; 400bp: r=-0.66),3rd-seq相关性较弱(200bp: r=-0.52; 400bp: r=-0.61)。
                                  4. 变异检测总体情况
                                    经链偏差过滤后获得15,707个高置信度变异。3rd-seq-200bp检测到最多变异(1,553个唯一变异),3rd-seq-400bp为756个,而2nd-seq仅为416-417个。核心共有变异仅374个(20.66%)。
                                  5. VAF特征
                                    2nd-seq变异VAF接近1.0(共识水平),而3rd-seq检测到大量低频变异(VAF<0.5),尤其在nsP1、nsP4、5'UTR、3'UTR和6K区域富集。
                                  6. Ct值与变异数量相关性
                                    2nd-seq中变异数量与Ct值呈负相关(200bp: r=-0.69; 400bp: r=-0.76);3rd-seq中呈正相关(200bp: r=0.80; 400bp: r=0.76),提示低模板浓度下性能差异。
                                  7. 低病毒载量样本表现
                                    在Ct>35样本中,3rd-seq从低覆盖区域(<500×)恢复44.54%-77.32%的变异,而2nd-seq仅0.85%-27.88%。
                                  8. 共识基因组分型
                                    所有四种平台生成的共识基因组用于系统发育分析,结果完全一致,正确分配同一基因型,说明在基本分子流行病学应用中可靠性相同。
                                  9. 已知热点突变检测
                                    所有平台均能可靠检测E1-A226V和E2-L210Q等已知流行病学相关突变。


                                  研究总结:


                                  结论

                                  • 第二代测序(尤其400 bp扩增子)在高通量、共识基因组生成方面最优,适合常规爆发监测。
                                  • 第三代测序在低频变异发现、基因组覆盖均匀性、低病毒载量样本分析方面具有关键优势。
                                  • 建议分层监测策略:Ct≤35样本两者皆可;Ct>35样本强烈推荐第三代测序进行深入分析。

                                  讨论

                                  • 2nd-seq的平台深度极高,但区域特异性覆盖偏差(如衣壳区域)可能导致假阴性。
                                  • 3rd-seq能揭示更丰富的宿主内病毒多样性,但需注意链偏差和低模板样本可能的技术伪影。
                                  • 3rd-seq中变异数量与Ct值的正相关关系需要进一步研究,可能源于低覆盖区域驱动变异恢复,而非误差放大,但Ct>35样本的变异仍需谨慎解读。
                                  • 两种平台在系统发育分型上的一致性表明,即使存在覆盖和变异检测差异,用于爆发溯源和基因型分类的共识基因组是可靠的。
                                  • 研究为CHIKV爆发应对提供了实用工具,指出平台选择应取决于研究目标:群体水平监测选2nd-seq,深入表征选3rd-seq。


                                  结果译文:

                                  1.用于CHIKV基因组监测的NGS实验平台的系统评估


                                  为确定常规CHIKV基因组监测的最佳测序条件,我们对四种下一代测序(NGS)配置进行了基准测试,这些配置将DNBSEQ-G99RS(二代测序)或QPursue6k(三代测序)化学方法与200 bp或400 bp扩增子引物组相结合(图1)。13份Ct值范围为17.41-38.14的临床样本被并行处理(图1)。共生成52个文库(每样本4个),获得12.6亿条通过质量控制(QC)的读段。我们发现DNBSEQ-G99(二代测序-400 bp)在数据产出效率上优于QPursue-6k(图2A,表1)。Ct值≥30.00的极低病毒载量样本,其数据产出量相对于其他样本有所减少(图2A)。经接头修剪、人源序列去除和CHIKV特异性比对后,保留的病毒读段用于下游深度和变异分析(图2B和C)。所有52个文库的蛋白质编码序列平均深度为87,108.24× ± 73,396.52×,其中二代测序-400 bp文库显示出最高的平均测序深度(152,430×),其次为二代测序-200 bp(82,390×)、三代测序-400 bp(62,729×)和三代测序-200 bp(48,303×)(图2B)。然而,变异检测在各组间呈现相对均匀的分布,平均变异数为302.06 ± 125.26,各组的平均变异数分别为276、289、302和342(图2C)。在这四种系统中,超低CHIKV载量样本(Ct值:P12: 38.11和P13: 38.14)尽管读段深度较低且高置信度变异数不一致,但仍产生了足够的读段深度用于变异检测(图2B和C)。总体而言,结果表明我们的实验系统即使在超低病毒载量样本中也能有效检测CHIKV。二代测序-400 bp系统产出更多数据和测序深度,其次是二代测序-200 bp、三代测序-400 bp和三代测序-200 bp。

                                  2.三代测序用于CHIKV监测的均匀基因组覆盖度和对扩增偏倚的抗性


                                  我们系统评估了每种实验系统的深度和基因组区域。深度分布在配置之间差异显著(图3A和B)。二代测序-400 bp文库实现最高的中位深度(139,022×;IQR 94,310-201,804×),显著超过三代测序-400 bp(57,860×;IQR 42,179-71,245×;双侧Wilcoxon P = 0.002)和三代测序-200 bp文库(42,179×;IQR 31,006-58,903×;P = 0.001,图3B)。然而,所有平台的覆盖完整性都很好:三代文库达到99.9±0.3%的基因组覆盖度,略优于二代(99.4±1.4%)(图S1A,表1)。
                                  深度与Ct值呈负相关,但这种关系依赖于平台(图3C)。二代文库表现出强负相关(Spearman检验,200 bp r = -0.75 P = 0.003;400 bp r = -0.66 P = 0.014),而三代文库显示弱相关(200 bp r = -0.52 P = 0.07;400 bp r = -0.61 P = 0.026,图3C)。读段长度被确认为决定性因素,400 bp方案产生的产出显著高于200 bp配置。
                                  实验系统揭示了显著的区域特异性测序深度和覆盖度,这些模式在不同化学方法间保守但幅度不同(图3D-F)。平滑平均深度线图(100 bp窗口,50 bp步长)显示,在所有蛋白质编码序列中,系统在衣壳蛋白区域呈现相对较低的测序深度和覆盖度(8,001-8,300 bp,图3D-F)。非结构蛋白结构域nsP3和nsP2表现出最强覆盖(分别为1.00±9.86e-5和1.00±1.16e-3),而5'UTR和3'UTR区域在覆盖度方面显示显著减少(分别为0.98±2.12e-3和0.99±0.017,图3E和F)。结构蛋白结构域显示出异质性覆盖:编码6K蛋白的核苷酸序列被完全覆盖(1.00±0.00),而衣壳蛋白内的一个区域(位置8,001-8,201,倍数变化=0.64,Wilcoxon检验P = 1.19e-4)与相邻蛋白序列相比,深度和覆盖度显著降低(图3E和F)。这些偏倚在三代测序数据中有所减弱,突显了其在均一基因组监测方面的优势。

                                  3.Ct分层覆盖结构对变异检测的影响


                                  低病毒载量样本(Ct > 35)在增加的深度阈值下显示出急剧的覆盖度下降(图S4A)。三代测序从低覆盖区域(< 500×)中回收了44.54-77.32%的变异,而二代测序回收率低于20%,后者偏向于超深区域(> 10,000×)(图S4B-C)。相关性分析确认了在三代测序中,低质量样本的变异数与深度之间存在显著正相关(r = 0.30-0.34, p < 0.001,图S4D),表明低覆盖区域驱动了变异的回收——这一趋势在二代测序中未观察到。这些发现证明三代测序通过有效回收低覆盖区域的变异,在低病毒载量样本中捕获了更多的宿主内病毒多样性。


                                  4.三代测序以更高的低频变异灵敏度解锁了CHIKV多样性的完整谱系


                                  四种实验系统在检测高置信度变异的独特变异等位基因频率(VAFs)方面表现出不同的性能。初始变异总数为51,209个,初次过滤后保留了39,574个变异。链偏倚分析进一步产生了15,707个高置信度变异:3,928个(二代-200 bp)、3,582个(二代-400 bp)、4,440个(三代-200 bp)和3,757个(三代-400 bp)。三代测序数据中显著的减少(从16,578和13,282降至4,440和3,757)突显了链偏倚过滤在减少技术假象方面的有效性。总体而言,经过常规质量控制程序(变异检出质量评分≥30,读段深度≥30)后,我们获得了39,574个变异(图4A和B)。虽然各样本或文库间的变异数保持一致(图4C),但VAF值在二代和三代测序平台之间显示出不同的谱系特征。事实上,二代文库检出的变异VAF值几乎全部为1.00,而三代文库则显示出多克隆突变谱(平均VAF分别为0.45和0.49),这可能是测序错误所致(图4A)。
                                  由于三代测序也可能引入模板链偏倚,我们随后量化了变异检测中的链偏倚,这可能导致假阳性结果。事实上,链偏倚分析揭示三代平台倾向于检出对负链具有显著偏倚的变异(鉴定为负链偏倚的变异:200 bp和400 bp文库分别为64.20%和61.40%;正链偏倚:分别为9.06%和10.30%),与二代平台形成对比(负链偏倚:200 bp和400 bp文库分别为10.40%和11.90%;正链偏倚:分别为10.70%和12.60%,图4B)。
                                  我们随后过滤了可疑变异,保留了总计15,707个高置信度变异用于下游分析(图4C和D)。每个CHIKV样本的变异数在四种实验系统之间未显示显著差异(图4C)。然而,用相同引物对制备的二代平台VAF值仍显著高于三代平台(Wilcoxon检验,P = 2.5e-5,图4D)。此外,400 bp引物对的二代文库检测到的突变读段数显著多于200 bp,表明其捕获携带变异的读段具有更高的灵敏度(图S1B)。
                                  相关性分析进一步突显了平台性能依赖于病毒载量的差异(图4E)。与测序深度一样,我们观察到二代文库的变异数与Ct值之间存在强负相关(200 bp: r = -0.69, P = 0.009;400 bp: r = -0.76, P = 0.003)。矛盾的是,三代文库呈现相反的趋势,显示出显著正相关(200 bp: r = 0.80, P = 0.001;400 bp: r = 0.76, P = 0.003),提示在较低模板浓度下变异检测灵敏度的不一致性(图4E)。为评估覆盖非均匀性是否影响变异检测,我们计算了250 bp滑动窗口内深度≥30×的位置比例,并将窗口分为四个覆盖层级(低:< 50%,中:50-80%,高:80-100%,全:100%)。聚焦于所有样本中一致覆盖的4,269 bp区域,以尽量减少因深度不足导致的假阴性(表S3),我们比较了各层级间的变异数和VAFs(图S4E-F)。在二代测序中,变异几乎完全在覆盖度≥80%的窗口中被检测到,VAFs一致为高值(~1.0)。相比之下,三代测序-200 bp组随着覆盖度降低,变异数和VAF均呈现逐渐下降,最低值出现在低覆盖窗口,提示该扩增子方案在低覆盖区域存在潜在的假阴性风险。三代测序-400 bp组仅在完全覆盖窗口中检测到变异,平均VAF为0.93,表明性能稳定。

                                  5.四种系统间检测独特变异的可靠性和一致性


                                  我们随后探索了四种系统间变异检测的一致性和可靠性。对13份CHIKV样本的全面变异分析共鉴定了在1,810个不同基因组位置上的2,011个独特变异,揭示了高度依赖于测序平台和扩增子长度的分布特征(图4F)。全基因组变异包括同义SNV(65.5%)、错义SNV(27.8%)、非编码SNV(ncSNV,5.0%)和无义突变(0.8%),以及移码插入缺失(0.8%)和框内变异(0.1%)(图S1C)。大多数变异位于非结构蛋白1(nsP1,CHIKVgp1),特别是在病毒甲基转移酶结构域(M7GTP),其次为衣壳蛋白、nsP3和E1(图S1D-F)。
                                  二代文库几乎未贡献独特变异(200 bp组零个,400 bp组仅一个),突显了它们在解析亚共识多样性方面的有限能力(图4F)。相比之下,三代文库捕获了最多数量的变异,使用200 bp和400 bp引物组分别检测到1,553个和756个变异。相反,二代文库产生的变异显著较少:416个(200 bp)和417个(400 bp)。一组核心的374个变异(20.66%)在所有四个实验组中一致鉴定,代表了CHIKV基因组上一组稳健的变异检测(图4F)。超出此共享集,最大的重叠出现在两个三代组之间(122个变异;6.74%),提示这些变异优先被长读长测序回收。显著地,三代测序-200 bp文库包含了1,048个独特变异的巨大储备(57.90%),三代测序-400 bp文库也拥有大量私有变异(218个,12.04%,图4F)。此外,两个二代组与三代测序-400 bp文库共享了33个变异,但与三代测序-200 bp文库仅共享3个,表明短读长和较长扩增子序列在变异回收上具有更紧密的一致性(图4F)。
                                  变异VAFs的柱状图揭示三代平台在检测低VAF变异(VAF < 0.5)方面更灵敏,可能指示CHIKV感染宿主内持续进行的突变过程(图4G和H)。低VAF变异的富集倾向于聚集在5'UTR、3'UTR、nsP4、nsP1和6K附近的基因组区域,这很可能指示在这些位点发生多克隆突变事件(图4B和G)。我们还注意到,我们的整合系统能够可靠地检测热点变异,如E1-A226V和E2-L210Q,以及其他数量相当的非同义变异(图4H和图S2)。与既往发现一致,二代平台倾向于报告具有高VAF值的变异,而三代平台允许异质性和克隆信号的检出,可能指示病毒复制或传播过程中不断进化的CHIKV基因组(图4H和图S2)。总之,400 bp扩增子和二代测序主要捕获共识基因组,而三代平台可通过长读长序列回收变异。

                                  6.所有四个测序平台的系统发育分型一致性


                                  为评估测序平台或扩增子长度的选择是否影响分子流行病学应用,我们使用由四种方法的每一种为全部13份样本生成的共识基因组,构建了最大似然系统发育树。尽管在测序深度、覆盖均匀度和宿主内变异检测灵敏度方面存在差异,所有四个平台将每份样本置于相同的系统发育位置并分配了相同的基因型(补充图S3)。这种一致性证明,尽管平台在解析宿主内多样性方面的能力不同,但它们对于一级公共卫生应用(如疫情聚类、传播谱系追踪和基因型分类)是完全可靠的。


                                  更多结果和补充图表:doi: 10.1080/22221751.2026.2660424







                                   长按二维码关注我们,用最短的时间和最高的效率学习更多生信思路!
                                  图片

                                  扫描上方二维码或登录平台官网后添加CNSknowall客服微信咨询!官网地址:https://cnsknowall.com

                                  CNSknowall:24年最新问世的遥遥领先的颠覆性科研数据(0代码生信+统计学)分析平台,同时含有机制图模块(原创3000多素材和机制图模板)+AI一键生成高质量比国自然标书初稿+汉化版Pubmed融合Deepseek高效筛选目标文献同时一键提炼全文核心创新点+SCI文献例句/语料检索模块+全文翻译+文献求助+图片查重+期刊查询+OPenAI官方GPT接口,>500款CNS级别图表皆可一秒内一键出图,登录即秒变数据分析大神,体验前所未有的便捷数据分析之旅,开启科研天骄之路!

                                  可向下滑动发掘更多科研秘籍!

                                  图片图片


                                  图片


                                  图片

                                  图片

                                  图片

                                  图片


                                  图片

                                  图片

                                  图片





                                  【声明】内容源于网络
                                  0
                                  0
                                  CNS生信新靶点挖掘
                                  每日汇总固定几本期刊上月最新见刊的生信类研究SCI!
                                  内容 0
                                  粉丝 0
                                  CNS生信新靶点挖掘 每日汇总固定几本期刊上月最新见刊的生信类研究SCI!
                                  总阅读0
                                  粉丝0
                                  内容0