本文作者:朱天能, 黄鑫,杨梦圆,齐国安,张齐心,林峰,张文劲,张哲,金鑫,郑厚峰,徐海明,余世洲,陈国波
摘要
连锁不平衡 (Linkage Disequilibrium, LD) 是群体遗传学和基因组学的基石,衡量了不同位点的非随机关联。面对当前生物银行 (Biobank) 级别的海量数据时,全基因组的LD模式精确计算一直是“不可完成的任务”。近日,发表于 Genome Biology 的“X-LDR: An Atlas of Linkage Disequilibrium Across Species”,成功攻克了这一计算壁垒。研究团队开发了超高效的随机算法X-LDR,将计算复杂度从
降低到
(这里算法
指迭代次数,远小于群体样本量
和标记数
)。更在理论上推导了包含群体结构效应的LD广义公式,首次实现了对“真实LD”和“群体结构所导致LD”的模式精准解析和分离。基于此,团队绘制了UK Biobank样本级别的全局LD图谱,也绘制了首个跨越25个物种的LD图谱,并利用全新的LD衰减回归模型(LD-dReg),为“走出非洲”等人类群体历史事件提供了全新的基因组学证据。
LD的广义解析解与“剥离”技术
长期以来,遗传学家对LD的研究大多局限于1,000kb以内,因为传统计算全基因组LD (
) 的计算成本会随着标记点数量(
)的平方
增长。面对数百万个SNP位点,这无疑是一道不可逾越的“计算高墙”。这使得我们对基因组的全局架构和长程LD模式几乎鲜有所知。本研究的核心突破在于,我们基与一个三联恒等式,从理论上重构了LD的计算和解析方式。
它将全局LD(
)与群体遗传关系矩阵(
)的特征值 (
) 精确地联系起来;其中
是一般线性代数的知识,
则需要通过Isserlis定理确立。对于biobank级别数据,
的计算并不容易,但通过Hutchison随机估算降低了计算复杂度,从而我们提供了一个计算上可行的广义的LD估算:
这组关系将观测到的LD (
)分解为两个部分:总体LD信号 (
) 减去由于群体结构所导致的(
)。在群体遗传学中,群体混合或分层(Population Structure)会引入虚假的LD信号,“污染”观测结果。而特征值 (
) 正是群体结构的近似表征。因此,新方法通过削去顶部特征值关联的群体结构项,将这部分“噪音”完美地“剥离”(LD Peeling),从而首次揭示出隐藏在数据之下的更真实LD信号。
900万LD网格与1KG人群的完美“去噪”
基于这一理论,我们开发了专为生物银行级别数据设计的X-LDR算法。我们首先将其应用于英国生物样本库 (UK Biobank) 的庞大数据中(约30万样本,420万SNP)。X-LDR在极短时间内(80个核,12小时)生成了一张包含近911万个LD网格 (LD blocks) 的超高分辨率人类基因组LD图谱 (图1A)。这张图以前所未有的方式高精度展示了人类基因组的LD架构,并清晰地识别出一些已知的高LD区域,如6号染色体上的人类白细胞抗原 (HLA) 区域以及着丝粒。
图1A 证明了X-LDR在生物数据库级别数据中的可计算性。接下来,我们使用1000 Genomes (1KG) 人群数据——一个知名的多种族高度混合、“噪音”极强的数据集,来验证我们“剥离”技术的准确性。
我们检验了两大群体遗传学规律:
Norm I 模式 (染色体LD与染色体长度成反比):在“剥离”前,1KG的混合数据与理论严重不符,模型拟合度仅为
R2=0.30(图1B深红色)。当我们“剥离”掉群体结构噪音后,数据瞬间“变得干净”, R2值跃升至 0.91(图1B浅红色),与理论完美契合 (图1B, C)。
Norm II 模式 (染色体间LD与群体结构成正比):染色体间的LD本应接近于零,其信号主要来自群体结构伪迹。如图1D所示,“剥离”前 R2≈1.0,显示LD信号完全由群体结构主导。而“剥离”后,这种虚假关联随之减弱甚至彻底消失 (图1E)。
图1的结果清晰地证明:X-LDR不仅算得快、算得大,而且算得准,成功地开发出了一套兼具规模与精度的LD计算引擎。
LD回归分析重现“走出非洲”
拥有了这台强大的新“LD望远镜”,我们做的第一件事就是回溯人类的群体历史。我们首创了一种LD衰减回归 (LD-dReg) 分析。简而言之,我们利用“剥离”后的干净LD数据,计算出一个全基因组的平均LD得分
,该得分可以量化一个群体LD的有效区域强度。
越高,意味着群体经历的重组次数越少,LD也越高。我们将此方法应用于四个单一族裔的人群(CONVERGE—一万个中国妇女,WBBC—一万个中国人,两个东亚人群;UKBW—UKB的278781个白人群体,UKBB—UKB的5057个黑人群体),得到了清晰的“三级跳”结果 (图2B-E):
东亚人群(
)> 欧洲人群(
)> 非洲人群(
),这一清晰LD递减趋势,与人类群体遗传学中经典的“走出非洲” (Out-of-Africa) 迁徙模型完美吻合。作为人类的起源地,非洲人群拥有最古老和最多样化的基因库,经历了最长时间的重组事件,因此其LD充分衰减(
最低)。而当人类的祖先走出非洲,迁徙至欧洲和东亚时,经历了一系列群体瓶颈效应,导致等位基因频率发生剧变,LD被锁定在较高水平。
回归斜率,是我们利用新方法发现的一个全新的、稳健的群体历史量化指标。它不再依赖于少数几个基因位点,而是利用全基因组的LD架构模式,为“走出非洲”这一人类史诗级迁徙事件,提供了强有力的基因组学新证据。
25个物种的基因组“Kilt图”
我们兑现了论文标题中的承诺——绘制“跨物种LD图谱” (An Atlas of Linkage Disequilibrium Across Species)。我们将X-LDR算法应用范围从人类扩展到了25个随机挑选的参考物种 (RefPop),涵盖哺乳动物 (小鼠)、鸟类 (大山雀)、昆虫 (果蝇)、植物 (苹果、大麦、棉花、水稻、烟草、番茄等),甚至真菌 (酵母)。为了直观比较这些物种的基因组架构,我们创建了一种新颖的可视化方法,称之为 “Kilt plot” (苏格兰裙图),以“苏格兰格子裙”的形式展示了每个物种全基因组的LD结构。
这张图谱揭示了物种间“高度多样化和异质性”的LD结构。每一个物种都展现出了独一无二的LD模式,记录了它们各自独特的进化、驯化或育种历史:苹果 (Apple) (图3B) 和 牛 (Cattle) (图3D) 呈现出强烈的对角线模式,反映了清晰的染色体结构。大麦 (Barley) (图3C) 和 棉花 (Cotton) (图3G) 则在染色体上出现了巨大的、异常的LD色块,它们极有可能是人类在长期育种和驯化过程中,进行强烈人工选择所留下的深刻烙印。烟草 (Tobacco) (图3V) 在旧版烟草参考基因组 (Nitab4.5) 显示出奇怪的跨染色体LD,我们进一步将参考基因组切换到新版更精细的基因组上 (NtaSR1),LD模式似乎正常了许多。这本LD地图集不但是比较基因组学、群体遗传学和动植物育种研究的基础资源,更是一个强大的基因组“质检”工具—指出组装错误或者参考基因组选择不当。
总结与展望
本研究通过算法和理论的双重革新,开发了多功能工具包GEAR (包含X-LD和X-LDR算法),成功解决了全局LD计算的“卡脖子”问题。我们的贡献是双重的:一个创新的工具:一个前所未有地快、准、可扩展的LD计算引擎X-LDR。一个基础性的资源:我们提供了首个“跨物种LD图谱”,这将成为未来比较基因组学和进化生物学研究的基准参考。我们相信,这项工作为研究跨物种基因组架构打开了新的大门。我们不仅提供了更强大的“望远镜” (X-LDR工具),还绘制了第一张基因组架构的“星图” (Kilt图谱)。我们期待这项工作能推动学界在复杂性状、进化生物学和基因组学等领域产生更多激动人心的发现。
团队介绍
浙江大学:朱天能(第一作者), 黄鑫,齐国安,张齐心,林峰,徐海明
华南农业大学;张文劲,张哲
华大研究院:金鑫
西湖大学:杨梦圆
苏州大学附属第二医院:郑厚峰
贵州烟草科学研究院:余世洲(通讯单位)
浙江省人民医院:陈国波(通讯单位)
Genome Biology
doi: 10.1186/s13059-025-03863-5
期刊简介
BMC旗舰刊 Genome Biology 是基因组生物学中排名最高的开放获取期刊, 致力于以基因组和后基因组为对象,研究生物学和生物医学各个领域的重大研究突破。
2024 IF:9.4
2024 下载量:7,780,489
Altmetric 提及:9,092
投稿到初审意见:14天(中值)
欢迎扫码了解期刊详情
BMC中国官方微信公众号平台【BMC科研永不止步】特别设立作者自荐专栏【论文推广投稿】(路径如下图所示),旨在帮助在BMC期刊上发表过学术论文的作者免费宣传和传播优秀的研究成果。希望通过该平台能够给科研人员提供一个展示研究成果的机会,将其推广给更广泛的受众。
点击“阅读原文”阅读英文原文
X-LDR: an atlas of linkage disequilibrium across species
BMC是施普林格∙自然旗下机构。作为开放获取出版先锋,BMC不断推出一系列高质量的同行评议期刊,包括BMC Biology 、BMC Medicine等涵盖范围较广的期刊,以及Malaria Journal、Microbiome和BMC系列期刊等专门刊物。BMC以“科研永不止步”为信条,致力于不断创新,以更好地满足作者群体的需要,确保所发表论文的完整性,并积极推广开放研究。
第一步:点击文章顶端“BMC科研永不止步”公众号;
第二步:点击右上角“...”
第三步:点击“设为星标”
点个“在看”,下次更新不错过⇣⇣

