新智元报道
新智元报道
【新智元导读】高分模型未必懂科学,有的只是在「死记硬背」!MIT揭秘:模型越聪明,对物质的理解就越趋同。既然真理路径已清晰,我们何必再深陷昂贵的算力竞赛?
当前AI for Science的发展,如同一场“多国峰会”——不同模型以不同方式描述同一物理现实:有的读SMILES字符串,有的解析原子3D坐标,各自在独立赛道上比拼预测精度。
但关键问题在于:这些模型是在“找规律”,还是真正理解了背后的物理本质?
MIT一项研究将59个架构、训练方式迥异的科学AI模型纳入统一评估框架,考察其在理解分子结构时,隐藏层表征是否收敛。
论文链接:https://arxiv.org/abs/2512.03750
结果令人震惊:尽管输入模态与建模路径差异巨大,但当模型性能提升至一定阈值后,其对物质的内部表征高度趋同。
一个仅处理文本的代码模型,其分子表征竟与专精物理受力计算的模型实现强对齐——不同路径,抵达同一认知顶峰。
真理的汇合:为什么顶尖模型越长越像?
研究引入核心指标“表征对齐度”,量化不同模型在处理同一分子时,其特征空间的相似性。
结果显示:模型性能越强,其表征越趋近于统一方向;能量预测误差越低,各模型在表达空间中的分布越紧凑。
性能与认知同步演进:能量预测准确率提升的同时,模型表征持续向高性能基座模型靠拢。图中每个点代表一个模型,点大小对应参数量。
无论CNN、GNN或Transformer架构如何差异,面对同一批分子数据,其特征空间复杂度均被压缩至极窄范围——最终提取的,是高度一致、最本质的物理信息。
化繁为简:AI架构各异,但数学层面的物质特征提取呈现显著收敛性。
这一现象在Orb V3等先进模型中尤为突出。
跨架构对齐显著:Orb V3等高性能模型与MACE、EqV2等物理驱动模型之间存在强烈表征共鸣。
更自由的训练策略,有助于进一步提升对物理规律的对齐精度。
当数据足够丰富、训练范式合理时,AI甚至能绕过人类既有公式,自主发现物质运行的底层规律。
这种全局收敛表明:AI并非随机拟合,而是在合力逼近物质世界唯一、真实、客观的底层逻辑。
不止分子,连「猫」都一样!
这种“英雄所见略同”的收敛现象,并非科学AI专属。
研究者对比纯文本语言模型(如GPT系列)与纯图像视觉模型(如CLIP),发现二者对“猫”的语义表征随规模增长而持续接近。
在语言模型中,“猫”的向量靠近“毛茸茸”“喵喵叫”“宠物”等语义词;在视觉模型中,则邻近胡须、圆眼、软毛等视觉特征。
二者本无交集,却在模型规模扩大后,其“猫”表征在线性空间中不断靠拢——仿佛共享同一“猫的本质”。
这意味着:无论从文本、图像、分子图谱还是3D坐标切入,只要模型足够强大,终将在内部构建出高度一致的现实内在图景。
高分不是真理,警惕「迷路」的AI
高性能模型趋向收敛,而低性能模型则呈现两种典型偏差:一为“各自迷路”,表征发散且错误;二为“集体降智”,虽趋同但丢失关键物理特征。
部分模型虽在特定任务中得分高,但表征孤立,难以泛化。例如MACE-OFF在部分分子能量预测中表现优异,但其表征对齐度极低,无法融入主流高性能模型群组。
图中白色点代表模型未见过的分子结构。可见其预测误差(MAE)激增,且表征严重偏离物理分布。
当遭遇训练集外的新物质时,许多模型放弃推理,退回设计者预设的“舒适区”,主动丢弃核心化学特征。
这表明:训练数据不仅是养料,更是决定模型能否触及真理的基石。缺乏多样性数据,再精巧的架构也难进化为通用基座模型。
真理唯一,我们离算力自由还有多远
既然不同模型终将收敛于同一物理理解,是否还需堆砌显卡、从零训练超大模型?答案是否定的。AI已给出一条捷径——模型蒸馏。
研究表明:小模型通过模仿高性能基座模型的表征逻辑,同样可实现接近的预测精度。
我们无需盲目追求参数量,而应利用“真理收敛”特性,将大模型的知识高效迁移到轻量、专用的小模型中。
图中圆点大小代表参数量。可见:只要表征对齐度高,较小模型同样可在分子能量预测任务中达到顶尖准确率。
Orb V3验证了一种新范式:通过大规模训练与合理正则化,简单架构也能获得媲美物理约束模型的理解力。
多元架构对比(部分):研究评估近60种模型(含Orb、MACE、DeepSeek等),为科研人员提供定量选型依据。
未来科学AI的评估标准将更加多元:不仅看任务得分,更关注是否进入“真理收敛圈”。一旦掌握对齐逻辑,科学发现将摆脱巨头算力垄断,轻量、垂直、低成本的AI将加速涌现,真正实现“算力自由”下的创新爆发。
MIT这项研究为狂热的AI竞赛降温,同时指明方向:科学AI的进化之路,不在更复杂架构或更炫物理公式,而在能否稳定进入那个“收敛圈”。
真理路径已然清晰——所有聪明模型都在奔向同一终点。以“表征对齐”驱动知识迁移与模型轻量化,是最务实的工程路径。
未来的科学,属于那些善用收敛性降低成本的人。

