谷歌Alpha家族再登Nature封面！刷新基因组预测SOTA，精准定位远端致病突变- 大数跨境

量子位

2026-01-29

导读：11种基因调控过程同时预测

谷歌Alpha家族再登Nature封面：AlphaGenome拓展AI预测至人类基因组图谱

谷歌DeepMind推出全新AI模型AlphaGenome，首次实现对人类基因组图谱的高精度、多维度综合预测，相关成果发表于《Nature》封面。

AlphaGenome可单次推理同步预测11种关键基因调控过程，涵盖RNA表达、转录因子结合、组蛋白修饰及染色质三维接触图谱等，精准捕捉基因组深层功能逻辑。

该模型能完整模拟RNA剪接动力学，准确计算剪接位点、位点使用率与剪接连接通路，识别因微小突变（如4碱基缺失）引发的异常外显子跳过事件。

在白血病相关基因TAL1研究中，AlphaGenome成功定位距其转录起始位点8000碱基远的致病插入突变，并推演出完整致病机制：该突变创建MYB转录因子新结合位点，进而诱导H3K27ac活性标记富集，形成远程增强子，异常激活TAL1导致T细胞癌变。

在GWAS非编码变异解析中，AlphaGenome为49%的疾病关联位点明确指向靶基因与调控方向，显著优于传统方法；在24项基因组轨迹预测基准测试中取得22项SOTA，在26轮疾病相关变异效应预测对决中胜出25轮。

目前，Google DeepMind已面向非商业科研开放AlphaGenome API。

AlphaGenome构建统一预测框架，输入1Mb长度DNA序列，即可端到端输出多维功能轨迹与染色质三维结构嵌入表示。

模型采用U-Net式混合主干网络，融合CNN局部特征提取能力与Transformer长程依赖建模能力：卷积编码器逐级降采样提取序列特征，中间层Transformer塔在低分辨率下高效处理跨数十万碱基的调控关系，解码器通过跳跃连接恢复单碱基精度。

训练数据覆盖人类（5930种功能轨迹）与小鼠（1128种功能轨迹）双物种，来源包括ENCODE、GTEx和4D Nucleome Project，涵盖多组织、多细胞类型样本，确保学习基因调控的普适规律。

采用两阶段训练策略：第一阶段严格4折交叉验证预训练；第二阶段以全折叠教师模型集合蒸馏学生模型，并引入随机移位、反向互补与人工突变等强数据增强，迫使模型掌握DNA序列“语法”而非记忆表型模式。

工程实现上，通过序列并行技术将1Mb输入切分为131kb片段，分发至8台TPU v3协同计算；最终蒸馏模型可在单GPU上实现<1秒/样本的高效推理。

【声明】内容源于网络

量子位

各类跨境出海行业相关资讯

内容 14681

粉丝 0

量子位各类跨境出海行业相关资讯

总阅读117.8k

粉丝0

内容14.7k