新智元报道
新智元报道
【新智元导读】一个30B参数的开源模型,把「假设—证据—验证」的科研闭环跑通了,在多个科学研究榜单上击败了参数量大一个数量级的顶尖闭源模型。
去年底,OpenAI发布FrontierScience基准,试图回答一个关键问题:大模型到底能不能「做科研」?
结果令人清醒——GPT-5.2在奥赛级结构化题目上得分77%,但面对真正开放式的科研任务,成绩骤降至25%。
52个百分点的断崖,撕开了一个被精美demo掩盖已久的真相:当前绝大多数大模型擅长的是「科研表演」——引经据典、逻辑自洽、格式完美;但一旦需要提出假设、收集证据、反复验证、修正结论,便暴露短板。
会写论文和会做研究之间,隔着一整条科学方法的鸿沟。
就在这条鸿沟面前,一个仅30B参数的开源模型UniScientist(来自UniPat AI),实现了突破——在FrontierScience-Research上取得28.3分,超越Claude Opus 4.5(17.5)、Gemini 3 Pro(12.4)及GPT-5.2最高配置(25.2)。
开源的UniScientist训练了一个30B参数模型,旨在完整闭合「假设—证据—验证」科研闭环。
在FrontierScience-Research、ResearchRubrics等权威科研评测中,其表现匹敌甚至超越参数量大一个数量级的顶尖闭源模型。
开源地址:
https://github.com/UniPat-AI/UniScientist
Blog: https://unipat.ai/blog/UniScientist
01|「会写报告」不等于「会做研究」:实现流程闭环才是能力
当前许多模型执行「研究任务」仅停留在表面:引用大量资料、输出逻辑严密的文本、格式接近论文。但问题在于——它们常陷入「叙事推理」或从「结论」倒推的逻辑陷阱:说得很像,验证很少,推导不稳,可复现性弱。
UniScientist直接回应这一缺口:仅30B参数即具备「自主科学研究」能力——在开放问题中持续提出、证伪、修正假设,直至证据状态稳定,再将全过程沉淀为结构化成果。
真正的科研,不只是把报告写漂亮;更是把「假设—证据—验证」的循环跑通。
02|数据瓶颈:人写得太慢,纯合成不够「真」
高质量科研训练数据长期受限于两大极端:
- 纯人工:真实、精准,但昂贵、低效,且受限于专家学科边界;
- 纯合成:规模大、成本低,但常缺乏可判别精度与学科真实性。
UniScientist的关键洞察在于一种被忽视的不对称性:
- 大模型更擅长生成:可跨学科大规模提出候选问题与解法草案;
- 人类专家更擅长验证:鉴别研究真伪与质量,成本远低于从零创造,且能提供高精度学科把关。
由此确立数据引擎核心原则:模型负责规模与多样性,人类负责质量与可验证性。产出的训练实例兼具广泛专业覆盖与严格验证保障。
03|形式化科学研究:证据状态与溯因假设的动态系统
不同于聚焦工具调用或检索优化的常见思路,UniScientist在更本质层面建模科研过程:将其定义为基于两个基本操作的动态系统——「主动证据整合(Active Evidence Integration)」与「模型溯因(Model Abduction)」。
系统核心是一个持续演化的「证据状态」,其中证据分为两类:
- Evidence-Grounded(可独立核验的证据):来自外部权威来源,或经明确验证的内部产出;
- Formally-Derivable(可形式化推导/复现的证据):通过符号推导、数值计算、仿真实验等可复现程序获得。
系统循环执行三步:
- 产生假说;
- 获取外部权威信息、计算或推导证据;
- 做溯因更新:使假说更好解释当前证据状态。
待证据足够完整稳定后,自动转化成严谨科学成果。
该形式化意义重大:将「科研智能」从远大理想,转化为可训练、可评估、可迭代的对象。
04|把开放的科学研究问题变成「可验证的单元测试」
UniScientist提出Evolving Polymathic Synthesis(进化式多学科合成),作为兼具研究问题生成与评测体系构建的双功能数据引擎:
- 从专家验证的科学Claim出发,扩展为跨多个子问题的研究级任务,要求实验设计与推导协同;
- 同步合成评测Rubrics——不评文风或格式,而聚焦具体科学发现是否达成。
其核心特征是:将开放式科研成果分解为N个封闭、可独立验证的Rubric检查项。
每条Rubric力求:原子化、客观、可证据落地或可形式化推导,并强调三项指标:
- 一致性(重复评测结果稳定);
- 区分度(能拉开不同完成度差异);
- 原子性(单条Rubric仅校验一个知识点)。
当前数据集已包含超4,700个研究级实例,每个实例附带20+条Rubric项,覆盖50+学科与400+研究方向。专家标注平均耗时1–2小时/样本,涵盖量子物理、有机化学、社会文化人类学、计算语言学等领域。
数据集问题均具真实科研质感——无一道可通过记忆既有答案直接解决,每道题均需完整科研链条:文献调研→假设形成→实验/推导设计→分析验证→成果收敛。
05|从单点生成到群体智慧
UniScientist引入额外训练目标——「成果聚合」:给定同一问题的N份候选科研成果,模型学习融合各家优点,产出更完整、更稳健的最终成果。通过Rubric阈值的rejection sampling筛选高质量参考答案,使聚合能力与生成能力同步内化。
这体现了科学研究的现实:单次尝试未必产出最优成果。模型不仅学会产出研究,还学会比较、取舍、整合与自我进化——即,将「集体科研智能」写入训练过程。
06|30B小模型比肩最大规模闭源系统
UniScientist-30B-A3B(仅3B激活参数)在FrontierScience-Research达28.3分,超越Claude Opus 4.5(17.5)、Gemini 3 Pro(12.4)、GPT-5.2 xhigh completion mode(25.2),以及工具调用模式下的DeepSeek V3.2(26.7)与Seed 2.0 Pro(26.7)。成果聚合模式下进一步提升至33.3分。
在FrontierScience-Olympiad上,启用工具的UniScientist得分71.0,匹配Claude Opus 4.5,超越多个前沿模型。
在DeepResearch Bench、DeepResearch Bench II及ResearchRubrics等分布外基准上,表现与顶级闭源系统相当。
尤为关键的是:即使在无工具条件下,性能仍有显著提升。说明增益并非单纯来自工具调用频次,而是模型自身研究推理能力确有增强。
所有基准结果共同指向一个结论:模型学会的不只是更好检索,而是将检索、推导、验证与写作整合为连贯的研究工作流。
07|下一步:迈向现实世界实验
科学研究不止于合理叙事。许多结论依赖可执行、可复现的计算与仿真。
UniScientist集成代码解释器,将研究流程升级为「测试—修正」循环:假设不仅被提出,更被实例化为计算实验,其结果可用于确认、推翻或细化假设。
当前能力集中于可复现推理与仿真计算。对真实世界研究资源的编排——如调度大规模GPU任务、协调湿实验流程——尚未实现。
下一阶段目标明确:扩展框架至对真实实验与计算基础设施的受控编排与执行,以加速科学发现、推动研究前沿。
以下为UniScientist完成的完整科研推理链条示例(详细内容见Blog):
https://unipat.ai/blog/UniScientist
关于 UniPat AI
UniPat AI此前发布的BabyVision多模态评测基准,已被多个近期模型纳入评测体系,并在技术报告中被引用。本次推出的UniScientist,聚焦科研任务本身,提出将全链条科研能力内化至模型的系统方案,使模型真正具备自主推进科学研究的能力。

