大数跨境
0
0

X-LDR:构建跨物种连锁不平衡(LD)的“超级图谱”

X-LDR:构建跨物种连锁不平衡(LD)的“超级图谱” BMC科研永不止步
2025-12-12
0
导读:连锁不平衡 (Linkage Disequilibrium, LD) 是群体遗传学和基因组学的基石,衡量了不同位点的非随机关联。面对当前生物银行 (Biobank) 级别的海量数据时,全基因组的LD模


本文作者:朱天能, 黄鑫,杨梦圆,齐国安,张齐心,林峰,张文劲,张哲,金鑫,郑厚峰,徐海明,余世洲,陈国波


摘要

连锁不平衡 (Linkage Disequilibrium, LD) 是群体遗传学和基因组学的基石,衡量了不同位点的非随机关联。面对当前生物银行 (Biobank) 级别的海量数据时,全基因组的LD模式精确计算一直是“不可完成的任务”。近日,发表于 Genome Biology 的“X-LDR: An Atlas of Linkage Disequilibrium Across Species”,成功攻克了这一计算壁垒。研究团队开发了超高效的随机算法X-LDR,将计算复杂度从降低到  (这里算法指迭代次数,远小于群体样本量和标记数)。更在理论上推导了包含群体结构效应的LD广义公式,首次实现了对“真实LD”和“群体结构所导致LD”的模式精准解析和分离。基于此,团队绘制了UK Biobank样本级别的全局LD图谱,也绘制了首个跨越25个物种的LD图谱,并利用全新的LD衰减回归模型(LD-dReg),为“走出非洲”等人类群体历史事件提供了全新的基因组学证据。 


LD的广义解析解与“剥离”技术 

长期以来,遗传学家对LD的研究大多局限于1,000kb以内,因为传统计算全基因组LD () 的计算成本会随着标记点数量()的平方 增长。面对数百万个SNP位点,这无疑是一道不可逾越的“计算高墙”。这使得我们对基因组的全局架构和长程LD模式几乎鲜有所知。本研究的核心突破在于,我们基与一个三联恒等式,从理论上重构了LD的计算和解析方式。 


它将全局LD()与群体遗传关系矩阵()的特征值 () 精确地联系起来;其中是一般线性代数的知识,则需要通过Isserlis定理确立。对于biobank级别数据,的计算并不容易,但通过Hutchison随机估算降低了计算复杂度,从而我们提供了一个计算上可行的广义的LD估算: 


这组关系将观测到的LD ()分解为两个部分:总体LD信号 () 减去由于群体结构所导致的()。在群体遗传学中,群体混合或分层(Population Structure)会引入虚假的LD信号,“污染”观测结果。而特征值 () 正是群体结构的近似表征。因此,新方法通过削去顶部特征值关联的群体结构项,将这部分“噪音”完美地“剥离”(LD Peeling),从而首次揭示出隐藏在数据之下的更真实LD信号。


900万LD网格与1KG人群的完美“去噪” 

基于这一理论,我们开发了专为生物银行级别数据设计的X-LDR算法。我们首先将其应用于英国生物样本库 (UK Biobank) 的庞大数据中(约30万样本,420万SNP)。X-LDR在极短时间内(80个核,12小时)生成了一张包含近911万个LD网格 (LD blocks) 的超高分辨率人类基因组LD图谱 (图1A)。这张图以前所未有的方式高精度展示了人类基因组的LD架构,并清晰地识别出一些已知的高LD区域,如6号染色体上的人类白细胞抗原 (HLA) 区域以及着丝粒。 

图1A 证明了X-LDR在生物数据库级别数据中的可计算性。接下来,我们使用1000 Genomes (1KG) 人群数据——一个知名的多种族高度混合、“噪音”极强的数据集,来验证我们“剥离”技术的准确性。

我们检验了两大群体遗传学规律: 

Norm I 模式 (染色体LD与染色体长度成反比):在“剥离”前,1KG的混合数据与理论严重不符,模型拟合度仅为

R2=0.30(图1B深红色)。当我们“剥离”掉群体结构噪音后,数据瞬间“变得干净”, R2值跃升至 0.91(图1B浅红色),与理论完美契合 (图1B, C)。 


Norm II 模式 (染色体间LD与群体结构成正比):染色体间的LD本应接近于零,其信号主要来自群体结构伪迹。如图1D所示,“剥离”前 R2≈1.0,显示LD信号完全由群体结构主导。而“剥离”后,这种虚假关联随之减弱甚至彻底消失 (图1E)。 


图1的结果清晰地证明:X-LDR不仅算得快、算得大,而且算得准,成功地开发出了一套兼具规模与精度的LD计算引擎。


LD回归分析重现“走出非洲”

拥有了这台强大的新“LD望远镜”,我们做的第一件事就是回溯人类的群体历史。我们首创了一种LD衰减回归 (LD-dReg) 分析。简而言之,我们利用“剥离”后的干净LD数据,计算出一个全基因组的平均LD得分,该得分可以量化一个群体LD的有效区域强度。越高,意味着群体经历的重组次数越少,LD也越高。我们将此方法应用于四个单一族裔的人群(CONVERGE—一万个中国妇女,WBBC—一万个中国人,两个东亚人群;UKBW—UKB的278781个白人群体,UKBB—UKB的5057个黑人群体),得到了清晰的“三级跳”结果 (图2B-E): 


东亚人群()> 欧洲人群()> 非洲人群(),这一清晰LD递减趋势,与人类群体遗传学中经典的“走出非洲” (Out-of-Africa) 迁徙模型完美吻合。作为人类的起源地,非洲人群拥有最古老和最多样化的基因库,经历了最长时间的重组事件,因此其LD充分衰减(最低)。而当人类的祖先走出非洲,迁徙至欧洲和东亚时,经历了一系列群体瓶颈效应,导致等位基因频率发生剧变,LD被锁定在较高水平。回归斜率,是我们利用新方法发现的一个全新的、稳健的群体历史量化指标。它不再依赖于少数几个基因位点,而是利用全基因组的LD架构模式,为“走出非洲”这一人类史诗级迁徙事件,提供了强有力的基因组学新证据。 


25个物种的基因组“Kilt图” 

我们兑现了论文标题中的承诺——绘制“跨物种LD图谱” (An Atlas of Linkage Disequilibrium Across Species)。我们将X-LDR算法应用范围从人类扩展到了25个随机挑选的参考物种 (RefPop),涵盖哺乳动物 (小鼠)、鸟类 (大山雀)、昆虫 (果蝇)、植物 (苹果、大麦、棉花、水稻、烟草、番茄等),甚至真菌 (酵母)。为了直观比较这些物种的基因组架构,我们创建了一种新颖的可视化方法,称之为 “Kilt plot” (苏格兰裙图),以“苏格兰格子裙”的形式展示了每个物种全基因组的LD结构。 


这张图谱揭示了物种间“高度多样化和异质性”的LD结构。每一个物种都展现出了独一无二的LD模式,记录了它们各自独特的进化、驯化或育种历史:苹果 (Apple) (图3B) 和 牛 (Cattle) (图3D) 呈现出强烈的对角线模式,反映了清晰的染色体结构。大麦 (Barley) (图3C) 和 棉花 (Cotton) (图3G) 则在染色体上出现了巨大的、异常的LD色块,它们极有可能是人类在长期育种和驯化过程中,进行强烈人工选择所留下的深刻烙印。烟草 (Tobacco) (图3V) 在旧版烟草参考基因组 (Nitab4.5) 显示出奇怪的跨染色体LD,我们进一步将参考基因组切换到新版更精细的基因组上 (NtaSR1),LD模式似乎正常了许多。这本LD地图集不但是比较基因组学、群体遗传学和动植物育种研究的基础资源,更是一个强大的基因组“质检”工具—指出组装错误或者参考基因组选择不当。 


总结与展望 

本研究通过算法和理论的双重革新,开发了多功能工具包GEAR (包含X-LD和X-LDR算法),成功解决了全局LD计算的“卡脖子”问题。我们的贡献是双重的:一个创新的工具:一个前所未有地快、准、可扩展的LD计算引擎X-LDR。一个基础性的资源:我们提供了首个“跨物种LD图谱”,这将成为未来比较基因组学和进化生物学研究的基准参考。我们相信,这项工作为研究跨物种基因组架构打开了新的大门。我们不仅提供了更强大的“望远镜” (X-LDR工具),还绘制了第一张基因组架构的“星图” (Kilt图谱)。我们期待这项工作能推动学界在复杂性状、进化生物学和基因组学等领域产生更多激动人心的发现。 


团队介绍 

浙江大学:朱天能(第一作者), 黄鑫,齐国安,张齐心,林峰,徐海明 

华南农业大学;张文劲,张哲 

华大研究院:金鑫 

西湖大学:杨梦圆 

苏州大学附属第二医院:郑厚峰 

贵州烟草科学研究院:余世洲(通讯单位) 

浙江省人民医院:陈国波(通讯单位) 



Genome Biology 

doi: 10.1186/s13059-025-03863-5


期刊简介

BMC旗舰刊 Genome Biology 是基因组生物学中排名最高的开放获取期刊, 致力于以基因组和后基因组为对象,研究生物学和生物医学各个领域的重大研究突破。


2024 IF:9.4 

2024 下载量:7,780,489 

Altmetric 提及:9,092 

投稿到初审意见:14天(中值)

欢迎扫码了解期刊详情



BMC中国官方微信公众号平台【BMC科研永不止步】特别设立作者自荐专栏【论文推广投稿】(路径如下图所示),旨在帮助在BMC期刊上发表过学术论文的作者免费宣传和传播优秀的研究成果。希望通过该平台能够给科研人员提供一个展示研究成果的机会,将其推广给更广泛的受众。

点击“阅读原文”阅读英文原文

X-LDR: an atlas of linkage disequilibrium across species

BMC是施普林格∙自然旗下机构。作为开放获取出版先锋,BMC不断推出一系列高质量的同行评议期刊,包括BMC Biology 、BMC Medicine等涵盖范围较广的期刊,以及Malaria Journal、MicrobiomeBMC系列期刊等专门刊物。BMC以“科研永不止步”为信条,致力于不断创新,以更好地满足作者群体的需要,确保所发表论文的完整性,并积极推广开放研究。

第一步:点击文章顶端“BMC科研永不止步”公众号;

第二步:点击右上角...

第三步:点击“设为星标

点个“在看”,下次更新不错过⇣⇣



【声明】内容源于网络
0
0
BMC科研永不止步
Springer Nature旗下的开放获取期刊品牌。BMC致力于为科学、技术、人文与社会科学等领域的科研人员提供更广泛且便捷的开放期刊、图书、数据、工具等开放科研服务。 定期更新期刊资讯、论文解析、投稿建议等实用信息。
内容 2017
粉丝 0
BMC科研永不止步 Springer Nature旗下的开放获取期刊品牌。BMC致力于为科学、技术、人文与社会科学等领域的科研人员提供更广泛且便捷的开放期刊、图书、数据、工具等开放科研服务。 定期更新期刊资讯、论文解析、投稿建议等实用信息。
总阅读33
粉丝0
内容2.0k