

X-LDR：构建跨物种连锁不平衡（LD）的“超级图谱”

BMC科研永不止步

2025-12-12

导读：连锁不平衡 (Linkage Disequilibrium, LD) 是群体遗传学和基因组学的基石，衡量了不同位点的非随机关联。面对当前生物银行 (Biobank) 级别的海量数据时，全基因组的LD模

本文作者：朱天能, 黄鑫，杨梦圆，齐国安，张齐心，林峰，张文劲，张哲，金鑫，郑厚峰，徐海明，余世洲，陈国波

摘要

连锁不平衡 (Linkage Disequilibrium, LD) 是群体遗传学和基因组学的基石，衡量了不同位点的非随机关联。面对当前生物银行 (Biobank) 级别的海量数据时，全基因组的LD模式精确计算一直是“不可完成的任务”。近日，发表于 Genome Biology 的“X-LDR: An Atlas of Linkage Disequilibrium Across Species”，成功攻克了这一计算壁垒。研究团队开发了超高效的随机算法X-LDR，将计算复杂度从降低到 (这里算法指迭代次数，远小于群体样本量和标记数)。更在理论上推导了包含群体结构效应的LD广义公式，首次实现了对“真实LD”和“群体结构所导致LD”的模式精准解析和分离。基于此，团队绘制了UK Biobank样本级别的全局LD图谱，也绘制了首个跨越25个物种的LD图谱，并利用全新的LD衰减回归模型(LD-dReg)，为“走出非洲”等人类群体历史事件提供了全新的基因组学证据。

LD的广义解析解与“剥离”技术

长期以来，遗传学家对LD的研究大多局限于1,000kb以内，因为传统计算全基因组LD （）的计算成本会随着标记点数量（）的平方增长。面对数百万个SNP位点，这无疑是一道不可逾越的“计算高墙”。这使得我们对基因组的全局架构和长程LD模式几乎鲜有所知。本研究的核心突破在于，我们基与一个三联恒等式，从理论上重构了LD的计算和解析方式。

它将全局LD（）与群体遗传关系矩阵（）的特征值 () 精确地联系起来；其中是一般线性代数的知识，则需要通过Isserlis定理确立。对于biobank级别数据，的计算并不容易，但通过Hutchison随机估算降低了计算复杂度，从而我们提供了一个计算上可行的广义的LD估算：

这组关系将观测到的LD ()分解为两个部分：总体LD信号 () 减去由于群体结构所导致的()。在群体遗传学中，群体混合或分层（Population Structure）会引入虚假的LD信号，“污染”观测结果。而特征值 () 正是群体结构的近似表征。因此，新方法通过削去顶部特征值关联的群体结构项，将这部分“噪音”完美地“剥离”（LD Peeling），从而首次揭示出隐藏在数据之下的更真实LD信号。

900万LD网格与1KG人群的完美“去噪”

基于这一理论，我们开发了专为生物银行级别数据设计的X-LDR算法。我们首先将其应用于英国生物样本库 (UK Biobank) 的庞大数据中（约30万样本，420万SNP）。X-LDR在极短时间内（80个核，12小时）生成了一张包含近911万个LD网格 (LD blocks) 的超高分辨率人类基因组LD图谱 (图1A)。这张图以前所未有的方式高精度展示了人类基因组的LD架构，并清晰地识别出一些已知的高LD区域，如6号染色体上的人类白细胞抗原 (HLA) 区域以及着丝粒。

图1A 证明了X-LDR在生物数据库级别数据中的可计算性。接下来，我们使用1000 Genomes (1KG) 人群数据——一个知名的多种族高度混合、“噪音”极强的数据集，来验证我们“剥离”技术的准确性。

我们检验了两大群体遗传学规律：

Norm I 模式 (染色体LD与染色体长度成反比)：在“剥离”前，1KG的混合数据与理论严重不符，模型拟合度仅为

R²=0.30（图1B深红色）。当我们“剥离”掉群体结构噪音后，数据瞬间“变得干净”， R²值跃升至 0.91（图1B浅红色），与理论完美契合 (图1B, C)。

Norm II 模式 (染色体间LD与群体结构成正比)：染色体间的LD本应接近于零，其信号主要来自群体结构伪迹。如图1D所示，“剥离”前 R²≈1.0，显示LD信号完全由群体结构主导。而“剥离”后，这种虚假关联随之减弱甚至彻底消失 (图1E)。

图1的结果清晰地证明：X-LDR不仅算得快、算得大，而且算得准，成功地开发出了一套兼具规模与精度的LD计算引擎。

LD回归分析重现“走出非洲”

拥有了这台强大的新“LD望远镜”，我们做的第一件事就是回溯人类的群体历史。我们首创了一种LD衰减回归 (LD-dReg) 分析。简而言之，我们利用“剥离”后的干净LD数据，计算出一个全基因组的平均LD得分，该得分可以量化一个群体LD的有效区域强度。越高，意味着群体经历的重组次数越少，LD也越高。我们将此方法应用于四个单一族裔的人群（CONVERGE—一万个中国妇女，WBBC—一万个中国人，两个东亚人群；UKBW—UKB的278781个白人群体，UKBB—UKB的5057个黑人群体），得到了清晰的“三级跳”结果 (图2B-E)：

东亚人群（）> 欧洲人群（）> 非洲人群（），这一清晰LD递减趋势，与人类群体遗传学中经典的“走出非洲” (Out-of-Africa) 迁徙模型完美吻合。作为人类的起源地，非洲人群拥有最古老和最多样化的基因库，经历了最长时间的重组事件，因此其LD充分衰减(最低)。而当人类的祖先走出非洲，迁徙至欧洲和东亚时，经历了一系列群体瓶颈效应，导致等位基因频率发生剧变，LD被锁定在较高水平。回归斜率，是我们利用新方法发现的一个全新的、稳健的群体历史量化指标。它不再依赖于少数几个基因位点，而是利用全基因组的LD架构模式，为“走出非洲”这一人类史诗级迁徙事件，提供了强有力的基因组学新证据。

25个物种的基因组“Kilt图”

我们兑现了论文标题中的承诺——绘制“跨物种LD图谱” (An Atlas of Linkage Disequilibrium Across Species)。我们将X-LDR算法应用范围从人类扩展到了25个随机挑选的参考物种 (RefPop)，涵盖哺乳动物 (小鼠)、鸟类 (大山雀)、昆虫 (果蝇)、植物 (苹果、大麦、棉花、水稻、烟草、番茄等)，甚至真菌 (酵母)。为了直观比较这些物种的基因组架构，我们创建了一种新颖的可视化方法，称之为 “Kilt plot” (苏格兰裙图)，以“苏格兰格子裙”的形式展示了每个物种全基因组的LD结构。

这张图谱揭示了物种间“高度多样化和异质性”的LD结构。每一个物种都展现出了独一无二的LD模式，记录了它们各自独特的进化、驯化或育种历史：苹果 (Apple) (图3B) 和牛 (Cattle) (图3D) 呈现出强烈的对角线模式，反映了清晰的染色体结构。大麦 (Barley) (图3C) 和棉花 (Cotton) (图3G) 则在染色体上出现了巨大的、异常的LD色块，它们极有可能是人类在长期育种和驯化过程中，进行强烈人工选择所留下的深刻烙印。烟草 (Tobacco) (图3V) 在旧版烟草参考基因组 (Nitab4.5) 显示出奇怪的跨染色体LD，我们进一步将参考基因组切换到新版更精细的基因组上 (NtaSR1)，LD模式似乎正常了许多。这本LD地图集不但是比较基因组学、群体遗传学和动植物育种研究的基础资源，更是一个强大的基因组“质检”工具—指出组装错误或者参考基因组选择不当。

总结与展望

本研究通过算法和理论的双重革新，开发了多功能工具包GEAR (包含X-LD和X-LDR算法)，成功解决了全局LD计算的“卡脖子”问题。我们的贡献是双重的：一个创新的工具：一个前所未有地快、准、可扩展的LD计算引擎X-LDR。一个基础性的资源：我们提供了首个“跨物种LD图谱”，这将成为未来比较基因组学和进化生物学研究的基准参考。我们相信，这项工作为研究跨物种基因组架构打开了新的大门。我们不仅提供了更强大的“望远镜” (X-LDR工具)，还绘制了第一张基因组架构的“星图” (Kilt图谱)。我们期待这项工作能推动学界在复杂性状、进化生物学和基因组学等领域产生更多激动人心的发现。

团队介绍

浙江大学：朱天能（第一作者）, 黄鑫，齐国安，张齐心，林峰，徐海明

华南农业大学；张文劲，张哲

华大研究院：金鑫

西湖大学：杨梦圆

苏州大学附属第二医院：郑厚峰

贵州烟草科学研究院：余世洲（通讯单位）

浙江省人民医院：陈国波（通讯单位）

Genome Biology

doi: 10.1186/s13059-025-03863-5

期刊简介

BMC旗舰刊 Genome Biology 是基因组生物学中排名最高的开放获取期刊, 致力于以基因组和后基因组为对象，研究生物学和生物医学各个领域的重大研究突破。

2024 IF：9.4

2024 下载量：7,780,489

Altmetric 提及：9,092

投稿到初审意见：14天（中值）

欢迎扫码了解期刊详情

BMC中国官方微信公众号平台【BMC科研永不止步】特别设立作者自荐专栏【论文推广投稿】（路径如下图所示），旨在帮助在BMC期刊上发表过学术论文的作者免费宣传和传播优秀的研究成果。希望通过该平台能够给科研人员提供一个展示研究成果的机会，将其推广给更广泛的受众。

点击“阅读原文”阅读英文原文

X-LDR: an atlas of linkage disequilibrium across species

BMC是施普林格∙自然旗下机构。作为开放获取出版先锋，BMC不断推出一系列高质量的同行评议期刊，包括BMC Biology 、BMC Medicine等涵盖范围较广的期刊，以及Malaria Journal、Microbiome和BMC系列期刊等专门刊物。BMC以“科研永不止步”为信条，致力于不断创新，以更好地满足作者群体的需要，确保所发表论文的完整性，并积极推广开放研究。

第一步：点击文章顶端“BMC科研永不止步”公众号；

第二步：点击右上角“...”

第三步：点击“设为星标”

点个“在看”，下次更新不错过⇣⇣

【声明】内容源于网络

BMC科研永不止步

Springer Nature旗下的开放获取期刊品牌。BMC致力于为科学、技术、人文与社会科学等领域的科研人员提供更广泛且便捷的开放期刊、图书、数据、工具等开放科研服务。定期更新期刊资讯、论文解析、投稿建议等实用信息。

内容 2017

粉丝 0

BMC科研永不止步 Springer Nature旗下的开放获取期刊品牌。BMC致力于为科学、技术、人文与社会科学等领域的科研人员提供更广泛且便捷的开放期刊、图书、数据、工具等开放科研服务。定期更新期刊资讯、论文解析、投稿建议等实用信息。

总阅读33

粉丝0

内容2.0k