港大团队开源7x24小时AI科学家，把人类时间还给创造力！- 大数跨境

首页

港大团队开源7x24小时AI科学家，把人类时间还给创造力！

DeepTech深科技

2026-01-02

导读：假如你是一名科研工作者，你是否渴望拥有一个超级助手？

AI-Researcher：面向科研全流程的多智能体协作系统

香港大学黄超团队研发的 AI-Researcher，正将“不知疲倦、知识渊博、全程协作”的AI科研助手从愿景变为现实。

实验显示：以 Claude 为后端时，该系统在 93.8% 的案例中成功产出可运行代码；经 GPT-4o 评审，超 78% 的 AI 生成论文达到与人类工作可比水平。它不仅作为工具存在，更可自主完成文献调研、假设生成、算法实现到论文撰写的完整科研闭环，在计算机视觉、图机器学习等多个领域逐步逼近人类高质量研究水准。

黄超表示：“过去一个月可能仅验证一种算法思路，而 AI-Researcher 可支持百级路径的并行探索，试错效率呈指数级提升，有望催生科研范式的质变。”

（来源：https://arxiv.org/abs/2505.18705）

多智能体协同：模拟人类科研团队分工

AI-Researcher 的核心架构基于多智能体协作框架，将复杂科研任务结构化分解与协同执行。

知识获取与资源分析

知识获取智能体仅需少量种子论文，即可自动检索并筛选高质量文献与开源代码库；资源分析智能体则通过 RAG 技术提取论文核心数学公式，并在代码仓库中定位对应实现，构建理论与实践的双向映射，实现概念原子化。

规划与创意生成

规划智能体整合上述分析结果，输出覆盖数据、训练、测试环节的详细开发计划；创意生成器采用“发散—收敛”策略，先生成多样研究设想，再基于科学性、新颖性与可行性筛选，形成结构完整的研究提案。

迭代式算法实现与自动化论文撰写

代码智能体负责初始实现，顾问智能体同步开展代码审核与实验反馈，形成多轮“实现—反馈—优化”循环，显著提升复杂算法实现成功率。文档智能体采用三阶段分层框架：先生成大纲，再填充内容并保障逻辑一致性，最后依专业清单核查全文与参考文献，确保学术严谨性。

（来源：https://arxiv.org/abs/2505.18705）

Scientist-Bench 基准评测：能力边界与意外发现

团队构建 Scientist-Bench 评估基准，精选 22 篇 CVPR、ICML 等顶会论文，覆盖计算机视觉、图机器学习等领域。评测设两级难度：Level-1 提供明确指令，检验执行能力；Level-2 仅给参考文献，要求自主发现新方向，挑战更高。

评估流程严格：先由代码评审智能体验证技术可行性，再以校准后的论文评审智能体进行双盲对比——AI 论文与人类原稿随机排序，融合多个顶尖大模型独立评审意见，模拟顶会评审委员会机制；评分维度对标 ICLR，涵盖创新性、方法严谨性与实验验证。

反直觉发现是：在开放探索任务（Level-2）中，AI-Researcher 的平均评分与可比比例均显著高于指令明确任务（Level-1）。这表明其在知识整合与自主发现方面具备独特优势，过度约束反而抑制创造力，挑战了“AI 擅执行、不擅创造”的传统认知。

但局限依然存在：面对需深厚理论功底的前沿优化或严密多步数学推导任务，系统表现尚显稚嫩；长周期（跨天级）科研流程也对记忆机制提出挑战。

（来源：https://arxiv.org/abs/2505.18705）

跨学科落地与普惠价值

目前，AI-Researcher 已在物理、化学、生物等领域展开实际应用。黄超指出，用户普遍反馈其具备“AI 赋能领域专家”的潜力：大幅降低 AI 使用门槛，使无深厚编程背景的研究者也能借助该系统推动本学科研究进展，实现跨领域的智能增强。

【声明】内容源于网络

DeepTech深科技

DeepTech 是一家专注新兴科技的资源赋能与服务机构，以科学、技术、人才为核心，通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块，推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。

内容 4879

粉丝 0

DeepTech深科技 DeepTech 是一家专注新兴科技的资源赋能与服务机构，以科学、技术、人才为核心，通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块，推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。

总阅读30.2k

粉丝0

内容4.9k