大数跨境
0
0

人大高瓴孙浩团队,Nature子刊+1

人大高瓴孙浩团队,Nature子刊+1 AIGC 深一度
2025-11-24
9
近日,中国人民大学高瓴人工智能学院孙浩教授团队在《自然-计算科学》(Nature Computational Science)上发表题为《Discovering physical laws with parallel symbolic enumeration》的Article文章,提出了一种创新符号回归方法——并行符号枚举(Parallel Symbolic Enumeration, PSE)。该方法以并行符号回归网络(PSRN)为核心,能够从有限数据中高效、准确地发现隐藏的物理规律和数学表达式。文章第一作者为阮恺(博士生),通讯作者为孙浩。以下是对该论文的深度解读,结合图文并茂的方式,全面解析其创新点、方法、实验及意义。

01

研究背景与意义
符号回归(Symbolic Regression, SR)是科学发现中的关键工具,旨在从数据中自动提取简洁、可解释的数学表达式。然而,传统SR方法面临组合爆炸问题,搜索空间无限,导致计算效率低、易陷入局部最优。现有方法(如遗传编程、稀疏回归、深度学习等)在复杂问题上存在精度和效率瓶颈。PSE的提出,通过并行枚举和共同子树重用,突破了这一瓶颈,在多个基准和真实世界问题上实现了高达99%的恢复精度和数量级的速度提升。

02

PSE方法的核心创新
PSE框架的核心是并行符号回归网络(PSRN),它通过并行计算和子树重用,大幅提升表达式评估效率。PSRN与令牌生成器(如遗传编程GP或蒙特卡洛树搜索MCTS)结合,形成迭代搜索循环。
1. PSE整体架构
PSE模型由PSRN评估器和令牌生成器组成,通过迭代方式逐步发现复杂表达式。令牌生成器提出候选子表达式,PSRN并行评估数百万候选表达式,并反馈奖励以优化搜索。
2. PSRN的前向传播与符号层
PSRN通过堆叠符号层(Symbol Layers)实现并行计算。每个符号层将输入表达式通过运算符(如+、×、sin、exp)组合,生成更深层的子树值,避免冗余计算。符号层支持一元、二元平方(非交换运算符)和二元三角(交换运算符或内存优化版本)操作。
3. 关键技术点
共同子树识别:不同表达式共享的子树仅计算一次,减少冗余(Fig. 1d)。
重复移除掩码(DR Mask):通过符号等价性检测减少GPU内存占用(Fig. 1e)。
系数微调:使用最小二乘法优化表达式中的常数系数(Fig. 1f)。

03

实验结果与性能分析
PSE在超过200个合成和真实问题集上进行了测试,包括SR基准、混沌动力学系统、机电定位系统和湍流摩擦实验。
1. SR基准测试
在Nguyen、Nguyen-c、R、Livermore和Feynman等基准问题上,PSE在恢复精度和计算时间上均优于现有方法(如SPL、NGGP、DGSR等)。例如,在R问题上实现100%恢复率,而基线方法几乎失败。
2. 混沌动力学发现
在16个混沌系统(如Lorenz吸引子)中,PSE在噪声数据(1%-10%高斯噪声)下仍能准确发现控制方程,恢复率显著高于基线。
3. 真实世界实验
机电定位系统(EMPS):PSE成功发现了基于牛顿第二律的控制方程,预测误差低且表达式简洁。
4. 消融研究与可扩展性
消融实验显示,令牌生成器(GP/MCTS)和DR Mask对性能至关重要。PSE在高维问题(50维输入,12个相关变量)中恢复率达到40%,而基线方法为0%。

04

讨论与挑战
PSE通过并行枚举和子树重用,实现了SR领域的范式转变。但其仍面临挑战:
内存瓶颈:PSRN的层数增加会导致内存需求指数增长,限制深表达式探索。
噪声敏感性:在高噪声下,模型可能过拟合或简化表达式。
常数处理:两阶段常数采样和微调可能无法覆盖全局最优。
未来方向包括集成其他SR技术、引入领域知识先验、优化计算后端等。

05

结论
PSE作为一种高效、准确的符号回归方法,在科学发现中具有广泛应用前景。其并行枚举框架不仅提升了计算效率,还增强了模型的可解释性,为跨学科数据驱动研究提供了新工具。这项工作标志着符号回归在处理复杂真实问题上的重要进步。
参考文献
论文全文见:Nature Computational Science, https://doi.org/10.1038/s43588-025-00904-8
代码与数据:https://github.com/intell-sci-comput/PSE
商务合作扫码添加微信
备注【AI交流群】加入人工智能交流群
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。

【声明】内容源于网络
0
0
AIGC 深一度
专注AIGC领域,关注微软 OpenAI、百度文心一言、讯飞星火 DeepSeek等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC,欢迎关注 个人网站 https://www.chenbaiqi.com
内容 469
粉丝 0
AIGC 深一度 专注AIGC领域,关注微软 OpenAI、百度文心一言、讯飞星火 DeepSeek等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC,欢迎关注 个人网站 https://www.chenbaiqi.com
总阅读40
粉丝0
内容469