大数跨境

领跑!30B模型登顶OpenAI科研榜单,UniPat AI冲上开源科研最前线

领跑!30B模型登顶OpenAI科研榜单,UniPat AI冲上开源科研最前线 新智元
2026-03-09
5

新智元报道

编辑:犀牛
【新智元导读】一个30B参数的开源模型,把「假设—证据—验证」的科研闭环跑通了,在多个科学研究榜单上击败了参数量大一个数量级的顶尖闭源模型。

去年底,OpenAI发布FrontierScience基准,试图回答一个关键问题:大模型到底能不能「做科研」?

结果令人清醒——GPT-5.2在奥赛级结构化题目上得分77%,但面对真正开放式的科研任务,成绩骤降至25%。

52个百分点的断崖,撕开了一个被精美demo掩盖已久的真相:当前绝大多数大模型擅长的是「科研表演」——引经据典、逻辑自洽、格式完美;但一旦需要提出假设、收集证据、反复验证、修正结论,便暴露短板。

会写论文和会做研究之间,隔着一整条科学方法的鸿沟。

就在这条鸿沟面前,一个仅30B参数的开源模型UniScientist(来自UniPat AI),实现了突破——在FrontierScience-Research上取得28.3分,超越Claude Opus 4.5(17.5)、Gemini 3 Pro(12.4)及GPT-5.2最高配置(25.2)。

它参数更少,但更懂「做研究」。
此前发布BabyVision多模态评测基准(已被多个近期重磅模型纳入评测)的UniPat AI,在最新博客《UniScientist: Advancing Universal Scientific Research Intelligence》中系统阐释了这一路径。

开源的UniScientist训练了一个30B参数模型,旨在完整闭合「假设—证据—验证」科研闭环。

在FrontierScience-Research、ResearchRubrics等权威科研评测中,其表现匹敌甚至超越参数量大一个数量级的顶尖闭源模型。

开源地址:
https://github.com/UniPat-AI/UniScientist
Blog: https://unipat.ai/blog/UniScientist

01|「会写报告」不等于「会做研究」:实现流程闭环才是能力

当前许多模型执行「研究任务」仅停留在表面:引用大量资料、输出逻辑严密的文本、格式接近论文。但问题在于——它们常陷入「叙事推理」或从「结论」倒推的逻辑陷阱:说得很像,验证很少,推导不稳,可复现性弱。

UniScientist直接回应这一缺口:仅30B参数即具备「自主科学研究」能力——在开放问题中持续提出、证伪、修正假设,直至证据状态稳定,再将全过程沉淀为结构化成果。

真正的科研,不只是把报告写漂亮;更是把「假设—证据—验证」的循环跑通。

02|数据瓶颈:人写得太慢,纯合成不够「真」

质量科研训练数据长期受限于两大极端:

  • 纯人工:真实、精准,但昂贵、低效,且受限于专家学科边界;
  • 纯合成:规模大、成本低,但常缺乏可判别精度与学科真实性。

UniScientist的关键洞察在于一种被忽视的不对称性:

  • 大模型更擅长生成:可跨学科大规模提出候选问题与解法草案;
  • 人类专家更擅长验证:鉴别研究真伪与质量,成本远低于从零创造,且能提供高精度学科把关。

由此确立数据引擎核心原则:模型负责规模与多样性,人类负责质量与可验证性。产出的训练实例兼具广泛专业覆盖与严格验证保障。

03|形式化科学研究:证据状态与溯因假设的动态系统

不同于聚焦工具调用或检索优化的常见思路,UniScientist在更本质层面建模科研过程:将其定义为基于两个基本操作的动态系统——「主动证据整合(Active Evidence Integration)」与「模型溯因(Model Abduction)」。

系统核心是一个持续演化的「证据状态」,其中证据分为两类:

  • Evidence-Grounded(可独立核验的证据):来自外部权威来源,或经明确验证的内部产出;
  • Formally-Derivable(可形式化推导/复现的证据):通过符号推导、数值计算、仿真实验等可复现程序获得。

系统循环执行三步:

  1. 产生假说;
  2. 获取外部权威信息、计算或推导证据;
  3. 做溯因更新:使假说更好解释当前证据状态。

待证据足够完整稳定后,自动转化成严谨科学成果。

该形式化意义重大:将「科研智能」从远大理想,转化为可训练、可评估、可迭代的对象。

04|把开放的科学研究问题变成「可验证的单元测试」

UniScientist提出Evolving Polymathic Synthesis(进化式多学科合成),作为兼具研究问题生成与评测体系构建的双功能数据引擎:

  1. 从专家验证的科学Claim出发,扩展为跨多个子问题的研究级任务,要求实验设计与推导协同;
  2. 同步合成评测Rubrics——不评文风或格式,而聚焦具体科学发现是否达成。

其核心特征是:将开放式科研成果分解为N个封闭、可独立验证的Rubric检查项。

每条Rubric力求:原子化、客观、可证据落地或可形式化推导,并强调三项指标:

  • 一致性(重复评测结果稳定);
  • 区分度(能拉开不同完成度差异);
  • 原子性(单条Rubric仅校验一个知识点)。

当前数据集已包含超4,700个研究级实例,每个实例附带20+条Rubric项,覆盖50+学科400+研究方向。专家标注平均耗时1–2小时/样本,涵盖量子物理、有机化学、社会文化人类学、计算语言学等领域。

数据集问题均具真实科研质感——无一道可通过记忆既有答案直接解决,每道题均需完整科研链条:文献调研→假设形成→实验/推导设计→分析验证→成果收敛。

05|从单点生成到群体智慧

UniScientist引入额外训练目标——「成果聚合」:给定同一问题的N份候选科研成果,模型学习融合各家优点,产出更完整、更稳健的最终成果。通过Rubric阈值的rejection sampling筛选高质量参考答案,使聚合能力与生成能力同步内化。

这体现了科学研究的现实:单次尝试未必产出最优成果。模型不仅学会产出研究,还学会比较、取舍、整合与自我进化——即,将「集体科研智能」写入训练过程。

06|30B小模型比肩最大规模闭源系统

UniScientist-30B-A3B(仅3B激活参数)在FrontierScience-Research达28.3分,超越Claude Opus 4.5(17.5)、Gemini 3 Pro(12.4)、GPT-5.2 xhigh completion mode(25.2),以及工具调用模式下的DeepSeek V3.2(26.7)与Seed 2.0 Pro(26.7)。成果聚合模式下进一步提升至33.3分。

在FrontierScience-Olympiad上,启用工具的UniScientist得分71.0,匹配Claude Opus 4.5,超越多个前沿模型。

在DeepResearch Bench、DeepResearch Bench II及ResearchRubrics等分布外基准上,表现与顶级闭源系统相当。

尤为关键的是:即使在无工具条件下,性能仍有显著提升。说明增益并非单纯来自工具调用频次,而是模型自身研究推理能力确有增强。

所有基准结果共同指向一个结论:模型学会的不只是更好检索,而是将检索、推导、验证与写作整合为连贯的研究工作流。

07|下一步:迈向现实世界实验

科学研究不止于合理叙事。许多结论依赖可执行、可复现的计算与仿真。

UniScientist集成代码解释器,将研究流程升级为「测试—修正」循环:假设不仅被提出,更被实例化为计算实验,其结果可用于确认、推翻或细化假设。

当前能力集中于可复现推理与仿真计算。对真实世界研究资源的编排——如调度大规模GPU任务、协调湿实验流程——尚未实现。

下一阶段目标明确:扩展框架至对真实实验与计算基础设施的受控编排与执行,以加速科学发现、推动研究前沿。

以下为UniScientist完成的完整科研推理链条示例(详细内容见Blog):
https://unipat.ai/blog/UniScientist

关于 UniPat AI

UniPat AI此前发布的BabyVision多模态评测基准,已被多个近期模型纳入评测体系,并在技术报告中被引用。本次推出的UniScientist,聚焦科研任务本身,提出将全链条科研能力内化至模型的系统方案,使模型真正具备自主推进科学研究的能力。

【声明】内容源于网络
0
0
新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
内容 14974
粉丝 0
新智元 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
总阅读135.7k
粉丝0
内容15.0k