谷歌发布新型AI系统,可自动生成专家级科研软件
融合大语言模型与树搜索技术,已在基因组学、神经科学等多个领域超越人类表现
近日,谷歌发布一项重磅研究成果——一种能够帮助科研人员自动编写“专家级”实证软件的AI系统。该系统结合大语言模型(LLM)与传统树搜索算法,通过迭代生成、评估和优化代码,显著提升科研效率。
该AI系统不仅稳定达到专家水平,在基因组学、公共健康、数值分析等多个领域甚至超越顶尖研究团队和国家级集成系统。其核心创新在于将LLM作为智能“变异”引擎,整合并重组来自论文、教材及AI生成的研究思路,推动科研软件的系统性演进。
- 论文标题:An AI system to help scientists write expert-level empirical software
- 论文链接:https://www.alphaxiv.org/abs/2509.06503v1
系统聚焦“可评分的科学任务”,即可通过准确率、误差率或基准测试等指标量化性能的计算问题,涵盖基因组学、流行病学、图像分析等广泛领域。其方法论由三大核心组件构成:
- 基于LLM的代码变异:持续重写和优化候选代码,结合领域知识与性能反馈进行智能改进。
- 树搜索导航:采用受AlphaZero启发的PUCT算法,在庞大解空间中平衡“探索”与“利用”。
- 研究思路融合:整合学术文献、专家知识,并程序化重组成功方案形成混合策略。
系统在Kaggle playground竞赛环境中开发,具备快速迭代周期和清晰的人类基准,适用于多学科验证。
跨领域成果显著
基因组学:在单细胞RNA测序数据去批次效应任务中,系统发现40种新方法,性能全面优于OpenProblems排行榜现有方案。最优方法BBKNN (TS) 相比ComBat提升14%。
地理空间分析:在DLRSD卫星图像分割任务中,前三名解决方案平均交并比超过0.80,优于最新学术成果。系统优化了UNet++、SegFormer等架构与预训练编码器的集成方式。
神经科学:在斑马鱼全脑神经活动预测(ZAPBench)任务中,生成模型多步预测性能优于所有基线,训练速度远超同类视频模型,并成功整合生物物理模拟器Jaxley。
时间序列预测:在GIFT-Eval基准测试中表现优异,自主构建统一预测库,支持自适应配置与时间序列分解。
数值分析:针对标准算法失效的振荡积分问题,演化代码成功求解17/19个案例,误差控制在3%以内,采用域划分与欧拉变换等高级数学策略。
技术创新:研究思路的智能重组
系统可分析不同方法的核心原理,合成混合策略。实验显示,指令如“请创建一种算法,结合两种策略优点,形成得分更高的混合策略”即可引导出高性能方案,无需复杂提示词。
研究表明,AI正从辅助工具转向驱动科研创新的核心力量。该系统实现了从“一次性代码生成”到“目标导向、搜索驱动”的范式转变,将开发周期从数月缩短至数天,有效突破科研瓶颈。
通过系统化探索大规模解空间、融合多元知识并精准定位高质量方案,该技术有望让更多研究者平等获取先进工具,同时拓展科学计算的边界。

