领跑！30B模型登顶OpenAI科研榜单，UniPat AI冲上开源科研最前线- 大数跨境

首页

领跑！30B模型登顶OpenAI科研榜单，UniPat AI冲上开源科研最前线

新智元

2026-03-09

新智元报道

编辑：犀牛

【新智元导读】一个30B参数的开源模型，把「假设—证据—验证」的科研闭环跑通了，在多个科学研究榜单上击败了参数量大一个数量级的顶尖闭源模型。

去年底，OpenAI发布FrontierScience基准，试图回答一个关键问题：大模型到底能不能「做科研」？

结果令人清醒——GPT-5.2在奥赛级结构化题目上得分77%，但面对真正开放式的科研任务，成绩骤降至25%。

52个百分点的断崖，撕开了一个被精美demo掩盖已久的真相：当前绝大多数大模型擅长的是「科研表演」——引经据典、逻辑自洽、格式完美；但一旦需要提出假设、收集证据、反复验证、修正结论，便暴露短板。

会写论文和会做研究之间，隔着一整条科学方法的鸿沟。

就在这条鸿沟面前，一个仅30B参数的开源模型UniScientist（来自UniPat AI），实现了突破——在FrontierScience-Research上取得28.3分，超越Claude Opus 4.5（17.5）、Gemini 3 Pro（12.4）及GPT-5.2最高配置（25.2）。

它参数更少，但更懂「做研究」。

此前发布BabyVision多模态评测基准（已被多个近期重磅模型纳入评测）的UniPat AI，在最新博客《UniScientist: Advancing Universal Scientific Research Intelligence》中系统阐释了这一路径。

开源的UniScientist训练了一个30B参数模型，旨在完整闭合「假设—证据—验证」科研闭环。

在FrontierScience-Research、ResearchRubrics等权威科研评测中，其表现匹敌甚至超越参数量大一个数量级的顶尖闭源模型。

开源地址：
https://github.com/UniPat-AI/UniScientist
Blog: https://unipat.ai/blog/UniScientist

01｜「会写报告」不等于「会做研究」：实现流程闭环才是能力

当前许多模型执行「研究任务」仅停留在表面：引用大量资料、输出逻辑严密的文本、格式接近论文。但问题在于——它们常陷入「叙事推理」或从「结论」倒推的逻辑陷阱：说得很像，验证很少，推导不稳，可复现性弱。

UniScientist直接回应这一缺口：仅30B参数即具备「自主科学研究」能力——在开放问题中持续提出、证伪、修正假设，直至证据状态稳定，再将全过程沉淀为结构化成果。

真正的科研，不只是把报告写漂亮；更是把「假设—证据—验证」的循环跑通。

02｜数据瓶颈：人写得太慢，纯合成不够「真」

高质量科研训练数据长期受限于两大极端：

纯人工：真实、精准，但昂贵、低效，且受限于专家学科边界；
纯合成：规模大、成本低，但常缺乏可判别精度与学科真实性。

UniScientist的关键洞察在于一种被忽视的不对称性：

大模型更擅长生成：可跨学科大规模提出候选问题与解法草案；
人类专家更擅长验证：鉴别研究真伪与质量，成本远低于从零创造，且能提供高精度学科把关。

由此确立数据引擎核心原则：模型负责规模与多样性，人类负责质量与可验证性。产出的训练实例兼具广泛专业覆盖与严格验证保障。

03｜形式化科学研究：证据状态与溯因假设的动态系统

不同于聚焦工具调用或检索优化的常见思路，UniScientist在更本质层面建模科研过程：将其定义为基于两个基本操作的动态系统——「主动证据整合（Active Evidence Integration）」与「模型溯因（Model Abduction）」。

系统核心是一个持续演化的「证据状态」，其中证据分为两类：

Evidence-Grounded（可独立核验的证据）：来自外部权威来源，或经明确验证的内部产出；
Formally-Derivable（可形式化推导/复现的证据）：通过符号推导、数值计算、仿真实验等可复现程序获得。

系统循环执行三步：

产生假说；
获取外部权威信息、计算或推导证据；
做溯因更新：使假说更好解释当前证据状态。

待证据足够完整稳定后，自动转化成严谨科学成果。

该形式化意义重大：将「科研智能」从远大理想，转化为可训练、可评估、可迭代的对象。

04｜把开放的科学研究问题变成「可验证的单元测试」

UniScientist提出Evolving Polymathic Synthesis（进化式多学科合成），作为兼具研究问题生成与评测体系构建的双功能数据引擎：

从专家验证的科学Claim出发，扩展为跨多个子问题的研究级任务，要求实验设计与推导协同；
同步合成评测Rubrics——不评文风或格式，而聚焦具体科学发现是否达成。

其核心特征是：将开放式科研成果分解为N个封闭、可独立验证的Rubric检查项。

每条Rubric力求：原子化、客观、可证据落地或可形式化推导，并强调三项指标：

一致性（重复评测结果稳定）；
区分度（能拉开不同完成度差异）；
原子性（单条Rubric仅校验一个知识点）。

当前数据集已包含超4,700个研究级实例，每个实例附带20+条Rubric项，覆盖50+学科与400+研究方向。专家标注平均耗时1–2小时/样本，涵盖量子物理、有机化学、社会文化人类学、计算语言学等领域。

数据集问题均具真实科研质感——无一道可通过记忆既有答案直接解决，每道题均需完整科研链条：文献调研→假设形成→实验/推导设计→分析验证→成果收敛。

05｜从单点生成到群体智慧

UniScientist引入额外训练目标——「成果聚合」：给定同一问题的N份候选科研成果，模型学习融合各家优点，产出更完整、更稳健的最终成果。通过Rubric阈值的rejection sampling筛选高质量参考答案，使聚合能力与生成能力同步内化。

这体现了科学研究的现实：单次尝试未必产出最优成果。模型不仅学会产出研究，还学会比较、取舍、整合与自我进化——即，将「集体科研智能」写入训练过程。

06｜30B小模型比肩最大规模闭源系统

UniScientist-30B-A3B（仅3B激活参数）在FrontierScience-Research达28.3分，超越Claude Opus 4.5（17.5）、Gemini 3 Pro（12.4）、GPT-5.2 xhigh completion mode（25.2），以及工具调用模式下的DeepSeek V3.2（26.7）与Seed 2.0 Pro（26.7）。成果聚合模式下进一步提升至33.3分。

在FrontierScience-Olympiad上，启用工具的UniScientist得分71.0，匹配Claude Opus 4.5，超越多个前沿模型。

在DeepResearch Bench、DeepResearch Bench II及ResearchRubrics等分布外基准上，表现与顶级闭源系统相当。

尤为关键的是：即使在无工具条件下，性能仍有显著提升。说明增益并非单纯来自工具调用频次，而是模型自身研究推理能力确有增强。

所有基准结果共同指向一个结论：模型学会的不只是更好检索，而是将检索、推导、验证与写作整合为连贯的研究工作流。