科学基础模型表征趋同性研究揭示物理现实的共同底层结构
将 ScienceAI设为星标
第一时间掌握新鲜的 AI for Science 资讯
编辑丨coisini
人工智能正经历从任务专用模型向通用型「基础模型」的范式转变。这类模型通过海量多样化数据预训练,具备执行未显式训练任务的能力。其核心在于强大的表征能力:模型能为每个输入生成紧凑、鲁棒的潜在表征,在远超训练分布的数据上依然保持优异性能。
语言与视觉领域的成功,推动基础模型向科学领域延伸。目前,涵盖字符串、图结构、三维原子尺度及蛋白质等多种模态的科学模型相继涌现。但这些模型是否学习到了一致的物质内在表征,尚无定论。
麻省理工学院(MIT)研究团队最新分析表明:近六十种科学基础模型——覆盖分子SMILES/SELFIES编码、三维原子坐标、蛋白质序列与结构、自然语言等多种输入模态,以及等变/非等变架构、保守/直接预测范式——在QM9、OMol25(分子)、OMat24、sAlex(材料)、RCSB(蛋白质)五大化学体系数据集上,所学表征呈现高度一致性。这一发现暗示:科学基础模型正在收敛于物理现实的共同底层表征。
研究概览
该研究系统评估了59个模型,横跨分子、材料、蛋白质三大科学领域,涵盖多种输入模态、模型架构与训练目标。研究者将统一数据集输入各模型,提取最后一层隐藏层嵌入作为表征,并采用四种正交度量方法量化不同模型潜在空间的对齐程度。
QM9 和 OMol25:小分子
OMat24 和 sAlex:无机材料
RCSB:蛋白质结构
科学基础模型表征趋同性的证据
研究证实:无论输入模态、训练任务或网络架构如何差异,科学基础模型的潜在表征显著对齐;且随着模型性能提升,表征进一步收敛。这表明高性能模型正逼近同一物理本质的抽象表征。
研究还构建了动态泛化基准,分别评估模型对分布内(已见)与分布外(未见)结构的表征稳定性。
研究意义
研究识别出科学模型泛化的两种关键机制:
在训练分布相近的结构上,高性能模型表征高度对齐,而低性能模型易陷入局部次优解;
在与训练数据差异极大的结构上,几乎所有模型表征均坍缩为低信息量状态,说明当前模型仍受限于训练数据覆盖范围与归纳偏置,尚未习得真正普适的结构表征。
本研究首次将“表征对齐度”确立为衡量科学基础模型泛化能力的基础性量化基准。该指标可追踪大模型演进过程中通用表征范式的形成路径,为跨模态、跨物质类型、跨科学任务的模型迁移与选型提供理论依据。

