谷歌Alpha家族再登Nature封面:AlphaGenome拓展AI预测至人类基因组图谱
谷歌DeepMind推出全新AI模型AlphaGenome,首次实现对人类基因组图谱的高精度、多维度综合预测,相关成果发表于《Nature》封面。
AlphaGenome可单次推理同步预测11种关键基因调控过程,涵盖RNA表达、转录因子结合、组蛋白修饰及染色质三维接触图谱等,精准捕捉基因组深层功能逻辑。
该模型能完整模拟RNA剪接动力学,准确计算剪接位点、位点使用率与剪接连接通路,识别因微小突变(如4碱基缺失)引发的异常外显子跳过事件。
在白血病相关基因TAL1研究中,AlphaGenome成功定位距其转录起始位点8000碱基远的致病插入突变,并推演出完整致病机制:该突变创建MYB转录因子新结合位点,进而诱导H3K27ac活性标记富集,形成远程增强子,异常激活TAL1导致T细胞癌变。
在GWAS非编码变异解析中,AlphaGenome为49%的疾病关联位点明确指向靶基因与调控方向,显著优于传统方法;在24项基因组轨迹预测基准测试中取得22项SOTA,在26轮疾病相关变异效应预测对决中胜出25轮。
目前,Google DeepMind已面向非商业科研开放AlphaGenome API。
同时预测11种基因调控过程
AlphaGenome构建统一预测框架,输入1Mb长度DNA序列,即可端到端输出多维功能轨迹与染色质三维结构嵌入表示。
模型采用U-Net式混合主干网络,融合CNN局部特征提取能力与Transformer长程依赖建模能力:卷积编码器逐级降采样提取序列特征,中间层Transformer塔在低分辨率下高效处理跨数十万碱基的调控关系,解码器通过跳跃连接恢复单碱基精度。
训练数据覆盖人类(5930种功能轨迹)与小鼠(1128种功能轨迹)双物种,来源包括ENCODE、GTEx和4D Nucleome Project,涵盖多组织、多细胞类型样本,确保学习基因调控的普适规律。
采用两阶段训练策略:第一阶段严格4折交叉验证预训练;第二阶段以全折叠教师模型集合蒸馏学生模型,并引入随机移位、反向互补与人工突变等强数据增强,迫使模型掌握DNA序列“语法”而非记忆表型模式。
工程实现上,通过序列并行技术将1Mb输入切分为131kb片段,分发至8台TPU v3协同计算;最终蒸馏模型可在单GPU上实现<1秒/样本的高效推理。

