大数跨境

高温超导成为AI「专家考试」:Google与康奈尔用1726篇论文测试大模型理解科学的极限

高温超导成为AI「专家考试」:Google与康奈尔用1726篇论文测试大模型理解科学的极限 ScienceAl
2026-03-18
4
导读:专家级AI助手还有多远?

大语言模型能否真正理解科学?谷歌与康奈尔开展高温超导领域实证研究

过去几年,大语言模型(LLM)在写作、编程和知识问答方面展现出强大能力,可总结论文、解释概念,甚至提出科研假设。但一个核心问题仍未解决:面对真实的科学研究问题,它们是否真正“理解”科学?

为验证这一点,Google Research 联合康奈尔大学物理学家设计了一项突破性实验——不采用常规测试题或标准基准,而是直接向 LLM 提出真实的科学研究问题,聚焦于凝聚态物理中长期存在理论争议、实验结果复杂的高温超导领域。

相关研究以《Expert evaluation of LLM world models: A high-T(c) superconductivity case study》为题,于2026年3月10日发表于《Proceedings of the National Academy of Sciences》(PNAS)。

https://www.pnas.org/doi/10.1073/pnas.2533676123

专家级科学考试:构建专业评估体系

高温超导自1987年获诺贝尔奖以来仍是开放性难题。本研究选取铜氧化物(cuprates)作为典型案例——这类材料可在远高于传统超导体的温度(最高达−140℃)下实现零电阻导电,其机制解析对新型超导材料发现与应用具有关键意义。

研究团队系统梳理了1,726篇铜氧化物高温超导领域核心论文,覆盖数十年实验与理论成果,并据此设计出67个专家级研究问题,用于全面评估模型能力。

图示:封闭系统构建流程

评估涵盖六个维度:

  • 平衡视角:是否兼顾不同科学假说与理论立场;
  • 全面性:是否涵盖关键实验事实及关联现象;
  • 简洁性:答案是否简明清晰、直击要点;
  • 证据支撑:结论是否附有可靠文献依据;
  • 视觉相关性:针对支持图像生成的模型,评估所提图表质量
  • 定性反馈:领域专家对回答逻辑性、深度的开放式评价。

图示:文献数据库构成

AI能读懂论文,但尚未真正理解科学

实验结果显示:部分模型在文献摘要、结论提炼与结构化表达上表现优异,尤其在检索增强生成(RAG)支持下,多个指标评分超越闭源模型。

图示:六款大型语言模型平均得分对比

然而,专家评审一致指出模型存在深层局限:

  • 能匹配关键词,却难以建立概念间逻辑关联;
  • 无法区分文献时效性,常混用已被后续研究推翻的早期结论;
  • 虽可调用图像,但无法像人类专家那样,从坐标轴、刻度、图注及曲线趋势中定量提取信息并开展推理

通向可信AI科学助手的路径

尽管当前LLM尚不能替代科学推理,但其价值已初步显现:可高效处理海量文献、自动提取实验数据、辅助构建材料数据库等。在材料科学等领域,已有研究借助LLM构建新型知识图谱与结构化数据库。

这表明,AI正成为科研流程中的有力辅助工具,但真正的科学发现与理论突破,仍需人类专家主导。

【声明】内容源于网络
0
0
ScienceAl
机器之心旗下媒体,关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展。
内容 1963
粉丝 0
ScienceAl 机器之心旗下媒体,关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展。
总阅读23.1k
粉丝0
内容2.0k