大数跨境

字节跳动李航:AI for Science的一些探索和进展

字节跳动李航:AI for Science的一些探索和进展 机器之心
2023-09-10
415
导读:李航介绍介绍字节跳动在AI for Science的一些探索。

字节跳动研究团队在AI for Science领域取得多项突破

近年来,人工智能在自然语言处理、计算机视觉等领域的迅猛发展,推动了AI技术向物理、化学、生物、医学等传统科学领域的深度融合,“AI for Science”(科学智能)作为新兴交叉学科正受到广泛关注[k]。字节跳动研究团队(ByteDance Research)持续投入该方向,聚焦机器学习与量子化学、大规模量子化学计算、AI制药等领域,致力于提升计算精度与效率,并已取得系列阶段性成果[k]


机器学习助力量子化学:LapNet实现训练速度提升10倍

量子化学的核心挑战在于求解分子或周期性体系的电子薛定谔方程,传统方法如密度泛函理论(DFT)或耦合簇(CCSD)在精度或可计算规模上存在局限[k]。近年来,基于神经网络的变分蒙特卡洛(NN-VMC)方法成为提升从头计算(ab initio)能力的重要路径[k]

字节跳动研究团队自2021年起与北京大学合作,提出多项创新方法。其中,LapNet采用前向拉普拉斯算子(Forward Laplacian)替代传统黑塞矩阵计算动能项,显著降低算法复杂度,在保持高精度的同时,相较代表性模型FermiNet平均提速约10倍[k]。LapNet支持更大规模体系的计算,最高可处理116个电子体系,目前在精度与规模上处于领先水平[k]

此外,团队还提出NN-VMC+ECP方法,结合赝势技术减少内层电子计算开销;以及NN-DMC方法,融合扩散蒙特卡洛算法提升基态能量预测精度[k]。这些技术可组合使用,未来有望进一步拓展可计算体系的边界[k]


图 1. NN-VMC 方法的基本原理



图 2. NN-VMC 方法的规模和精度


突破量子计算瓶颈:Periodic DMET大幅降低量子比特需求

为应对大规模量子化学体系的计算挑战,团队采用量子嵌入方法DMET(密度矩阵嵌入理论),将体系划分为多个片段并行处理,结合高精度与低精度计算,实现“分而治之”[k]。团队基于经典与量子混合计算范式,开发了适用于周期性体系的Periodic DMET算法[k]

该方法利用量子计算机处理关键片段(如使用U-CCSD算法),经典计算机处理其余部分(如Hartree–Fock法),通过迭代优化逼近整体解[k]。模拟结果显示,仅需20个量子比特即可达到此前方法需近万个量子比特才能实现的精度,极大降低了对当前有限量子资源的依赖[k]

此前团队还提出DMET-ESVQE方法用于分子体系,仅需16个量子比特即可实现传统方法144个量子比特的计算效果[k]。同时,团队探索将量子计算与量子蒙特卡洛方法结合,以缓解符号问题,进一步释放量子优势[k]


图 3. DMET 方法的直观解释



图 4. Periodic DMET 方法的示意


AI制药新进展:LM-Design刷新蛋白质序列设计精度

在AI制药方向,团队覆盖小分子与大分子药物设计。针对小分子候选生成,团队开发MARS与DESERT方法[k]

MARS基于图神经网络与马尔可夫链蒙特卡洛(MCMC)框架,结合多目标打分函数(亲和性、成药性等),实现从种子分子出发的自动优化与编辑,已应用于实际药物研发流程[k]。DESERT则分两步生成候选分子:先根据靶点口袋形状生成互补形状(Sketching),再通过预训练模型Shape2Mol将形状转化为分子式(Generating),是2022年性能最优的生成方法之一[k]

在大分子药物及蛋白质设计方面,团队推出LM-Design模型,实现从蛋白质结构到氨基酸序列的高效生成[k]。该模型结合预训练蛋白质语言模型与结构编码器,引入结构适配器,在掩码语言建模任务中优化预测[k]。其优势在于能充分利用海量未配对的蛋白质序列数据,学习进化关系,并准确捕捉长程氨基酸相互作用[k]。实验表明,LM-Design在现有方法中精度最高,且模型规模与性能呈正相关[k]


图 5. DESERT:自动生成小分子药物候选



图 6. 形状到分子的生成模型 Shape2Mol 的示意



图 7. 蛋白质结构到序列的生成模型 LM-Design 的架构



图 8. 蛋白质序列生成方法的精度

神经网络与量子计算在化学及材料科学中的应用研究进展

近年来,神经网络与量子计算技术在化学及材料科学领域取得重要进展。研究者利用基于神经网络的变分量子蒙特卡洛方法实现了对原子间作用力的精确计算[5],并通过多体神经网络试探波函数实现了电极化的高效模拟[6]。在固体系统模拟方面,研究人员提出了一种适用于真实固体的神经网络试探波函数方法,显著提升了第一性原理计算的精度与效率[4]

针对强关联材料的模拟,量子嵌入方法结合量子计算展现出巨大潜力。研究团队在近期实现了近似量子计算机上对真实化学体系的量子嵌入模拟,为实际应用奠定了基础[7]。进一步地,基于量子嵌入的第一性原理量子模拟已在强关联材料研究中得到成功应用,相关成果发表于NPJ Computational Materials[8]。此外,量子蒙特卡洛与量子计算的结合也被系统探讨,为未来算法发展提供了理论框架[9]

在药物发现领域,马尔可夫分子采样方法(MARS)被提出用于多目标药物设计,显著提升了分子生成效率[10]。另有研究实现了基于草图生成的零样本三维药物设计方法,拓展了人工智能在分子结构设计中的应用边界[11]。结构感知的语言模型也被证实具备蛋白质设计能力,展示了人工智能驱动的蛋白质工程新范式[12]

【声明】内容源于网络
0
0
机器之心
专业的人工智能媒体和产业服务平台
内容 16994
粉丝 0
机器之心 专业的人工智能媒体和产业服务平台
总阅读174.0k
粉丝0
内容17.0k