大数跨境
0
0

港大团队开源7x24小时AI科学家,把人类时间还给创造力!

港大团队开源7x24小时AI科学家,把人类时间还给创造力! DeepTech深科技
2026-01-02
9
导读:假如你是一名科研工作者,你是否渴望拥有一个超级助手?

AI-Researcher:面向科研全流程的多智能体协作系统

香港大学黄超团队研发的 AI-Researcher,正将“不知疲倦、知识渊博、全程协作”的AI科研助手从愿景变为现实。

实验显示:以 Claude 为后端时,该系统在 93.8% 的案例中成功产出可运行代码;经 GPT-4o 评审,超 78% 的 AI 生成论文达到与人类工作可比水平。它不仅作为工具存在,更可自主完成文献调研、假设生成、算法实现到论文撰写的完整科研闭环,在计算机视觉、图机器学习等多个领域逐步逼近人类高质量研究水准。

黄超表示:“过去一个月可能仅验证一种算法思路,而 AI-Researcher 可支持百级路径的并行探索,试错效率呈指数级提升,有望催生科研范式的质变。”

(来源:https://arxiv.org/abs/2505.18705)

多智能体协同:模拟人类科研团队分工

AI-Researcher 的核心架构基于多智能体协作框架,将复杂科研任务结构化分解与协同执行。

知识获取与资源分析

知识获取智能体仅需少量种子论文,即可自动检索并筛选高质量文献与开源代码库;资源分析智能体则通过 RAG 技术提取论文核心数学公式,并在代码仓库中定位对应实现,构建理论与实践的双向映射,实现概念原子化。

规划与创意生成

规划智能体整合上述分析结果,输出覆盖数据、训练、测试环节的详细开发计划;创意生成器采用“发散—收敛”策略,先生成多样研究设想,再基于科学性、新颖性与可行性筛选,形成结构完整的研究提案。

迭代式算法实现与自动化论文撰写

代码智能体负责初始实现,顾问智能体同步开展代码审核与实验反馈,形成多轮“实现—反馈—优化”循环,显著提升复杂算法实现成功率。文档智能体采用三阶段分层框架:先生成大纲,再填充内容并保障逻辑一致性,最后依专业清单核查全文与参考文献,确保学术严谨性。

(来源:https://arxiv.org/abs/2505.18705)

Scientist-Bench 基准评测:能力边界与意外发现

团队构建 Scientist-Bench 评估基准,精选 22 篇 CVPR、ICML 等顶会论文,覆盖计算机视觉、图机器学习等领域。评测设两级难度:Level-1 提供明确指令,检验执行能力;Level-2 仅给参考文献,要求自主发现新方向,挑战更高。

评估流程严格:先由代码评审智能体验证技术可行性,再以校准后的论文评审智能体进行双盲对比——AI 论文与人类原稿随机排序,融合多个顶尖大模型独立评审意见,模拟顶会评审委员会机制;评分维度对标 ICLR,涵盖创新性、方法严谨性与实验验证。

反直觉发现是:在开放探索任务(Level-2)中,AI-Researcher 的平均评分与可比比例均显著高于指令明确任务(Level-1)。这表明其在知识整合与自主发现方面具备独特优势,过度约束反而抑制创造力,挑战了“AI 擅执行、不擅创造”的传统认知。

但局限依然存在:面对需深厚理论功底的前沿优化或严密多步数学推导任务,系统表现尚显稚嫩;长周期(跨天级)科研流程也对记忆机制提出挑战。

(来源:https://arxiv.org/abs/2505.18705)

跨学科落地与普惠价值

目前,AI-Researcher 已在物理、化学、生物等领域展开实际应用。黄超指出,用户普遍反馈其具备“AI 赋能领域专家”的潜力:大幅降低 AI 使用门槛,使无深厚编程背景的研究者也能借助该系统推动本学科研究进展,实现跨领域的智能增强。

【声明】内容源于网络
0
0
DeepTech深科技
DeepTech 是一家专注新兴科技的资源赋能与服务机构,以科学、技术、人才为核心,通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块,推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。
内容 4876
粉丝 0
DeepTech深科技 DeepTech 是一家专注新兴科技的资源赋能与服务机构,以科学、技术、人才为核心,通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块,推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。
总阅读29.6k
粉丝0
内容4.9k