大数跨境
0
0

谷歌Alpha家族再登Nature封面!刷新基因组预测SOTA,精准定位远端致病突变

谷歌Alpha家族再登Nature封面!刷新基因组预测SOTA,精准定位远端致病突变 量子位
2026-01-29
4
导读:11种基因调控过程同时预测

谷歌Alpha家族再登Nature封面:AlphaGenome拓展AI预测至人类基因组图谱

谷歌DeepMind推出全新AI模型AlphaGenome,首次实现对人类基因组图谱的高精度、多维度综合预测,相关成果发表于《Nature》封面。

AlphaGenome可单次推理同步预测11种关键基因调控过程,涵盖RNA表达、转录因子结合、组蛋白修饰及染色质三维接触图谱等,精准捕捉基因组深层功能逻辑。

该模型能完整模拟RNA剪接动力学,准确计算剪接位点、位点使用率与剪接连接通路,识别因微小突变(如4碱基缺失)引发的异常外显子跳过事件。

在白血病相关基因TAL1研究中,AlphaGenome成功定位距其转录起始位点8000碱基远的致病插入突变,并推演出完整致病机制:该突变创建MYB转录因子新结合位点,进而诱导H3K27ac活性标记富集,形成远程增强子,异常激活TAL1导致T细胞癌变。

在GWAS非编码变异解析中,AlphaGenome为49%的疾病关联位点明确指向靶基因与调控方向,显著优于传统方法;在24项基因组轨迹预测基准测试中取得22项SOTA,在26轮疾病相关变异效应预测对决中胜出25轮。

目前,Google DeepMind已面向非商业科研开放AlphaGenome API。

同时预测11种基因调控过程

AlphaGenome构建统一预测框架,输入1Mb长度DNA序列,即可端到端输出多维功能轨迹与染色质三维结构嵌入表示。

模型采用U-Net式混合主干网络,融合CNN局部特征提取能力与Transformer长程依赖建模能力:卷积编码器逐级降采样提取序列特征,中间层Transformer塔在低分辨率下高效处理跨数十万碱基的调控关系,解码器通过跳跃连接恢复单碱基精度。

训练数据覆盖人类(5930种功能轨迹)与小鼠(1128种功能轨迹)双物种,来源包括ENCODE、GTEx和4D Nucleome Project,涵盖多组织、多细胞类型样本,确保学习基因调控的普适规律。

采用两阶段训练策略:第一阶段严格4折交叉验证预训练;第二阶段以全折叠教师模型集合蒸馏学生模型,并引入随机移位、反向互补与人工突变等强数据增强,迫使模型掌握DNA序列“语法”而非记忆表型模式。

工程实现上,通过序列并行技术将1Mb输入切分为131kb片段,分发至8台TPU v3协同计算;最终蒸馏模型可在单GPU上实现<1秒/样本的高效推理。

【声明】内容源于网络
0
0
量子位
各类跨境出海行业相关资讯
内容 14681
粉丝 0
量子位 各类跨境出海行业相关资讯
总阅读117.8k
粉丝0
内容14.7k