高温超导成为AI「专家考试」：Google与康奈尔用1726篇论文测试大模型理解科学的极限- 大数跨境

首页

高温超导成为AI「专家考试」：Google与康奈尔用1726篇论文测试大模型理解科学的极限

ScienceAl

2026-03-18

导读：专家级AI助手还有多远？

大语言模型能否真正理解科学？谷歌与康奈尔开展高温超导领域实证研究

过去几年，大语言模型（LLM）在写作、编程和知识问答方面展现出强大能力，可总结论文、解释概念，甚至提出科研假设。但一个核心问题仍未解决：面对真实的科学研究问题，它们是否真正“理解”科学？

为验证这一点，Google Research 联合康奈尔大学物理学家设计了一项突破性实验——不采用常规测试题或标准基准，而是直接向 LLM 提出真实的科学研究问题，聚焦于凝聚态物理中长期存在理论争议、实验结果复杂的高温超导领域。

相关研究以《Expert evaluation of LLM world models: A high-T(c) superconductivity case study》为题，于2026年3月10日发表于《Proceedings of the National Academy of Sciences》（PNAS）。

https://www.pnas.org/doi/10.1073/pnas.2533676123

专家级科学考试：构建专业评估体系

高温超导自1987年获诺贝尔奖以来仍是开放性难题。本研究选取铜氧化物（cuprates）作为典型案例——这类材料可在远高于传统超导体的温度（最高达−140℃）下实现零电阻导电，其机制解析对新型超导材料发现与应用具有关键意义。

研究团队系统梳理了1,726篇铜氧化物高温超导领域核心论文，覆盖数十年实验与理论成果，并据此设计出67个专家级研究问题，用于全面评估模型能力。

图示：封闭系统构建流程

评估涵盖六个维度：

平衡视角：是否兼顾不同科学假说与理论立场；
全面性：是否涵盖关键实验事实及关联现象；
简洁性：答案是否简明清晰、直击要点；
证据支撑：结论是否附有可靠文献依据；
视觉相关性：针对支持图像生成的模型，评估所提图表质量；
定性反馈：领域专家对回答逻辑性、深度的开放式评价。

图示：文献数据库构成

AI能读懂论文，但尚未真正理解科学

实验结果显示：部分模型在文献摘要、结论提炼与结构化表达上表现优异，尤其在检索增强生成（RAG）支持下，多个指标评分超越闭源模型。

图示：六款大型语言模型平均得分对比

然而，专家评审一致指出模型存在深层局限：

能匹配关键词，却难以建立概念间逻辑关联；
无法区分文献时效性，常混用已被后续研究推翻的早期结论；
虽可调用图像，但无法像人类专家那样，从坐标轴、刻度、图注及曲线趋势中定量提取信息并开展推理。

通向可信AI科学助手的路径

尽管当前LLM尚不能替代科学推理，但其价值已初步显现：可高效处理海量文献、自动提取实验数据、辅助构建材料数据库等。在材料科学等领域，已有研究借助LLM构建新型知识图谱与结构化数据库。

这表明，AI正成为科研流程中的有力辅助工具，但真正的科学发现与理论突破，仍需人类专家主导。

【声明】内容源于网络

ScienceAl

机器之心旗下媒体，关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展。

内容 1963

粉丝 0

ScienceAl 机器之心旗下媒体，关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展。

总阅读23.1k

粉丝0

内容2.0k