大数跨境

AI原生时代下,让世界适应Agent,而非教AI做人 | 港大黄超@AIGC2026

AI原生时代下,让世界适应Agent,而非教AI做人 | 港大黄超@AIGC2026 量子位
2026-05-31
17
导读:CLI更像是Agent的母语

Agent 时代,究竟需要什么样的基础设施?港大助理教授黄超给出的答案是:不是让 Agent 不停地适应人,而是为 Agent 重新设计数字世界。

在 2026 中国 AIGC 产业峰会上,黄超系统梳理了其团队过去两年围绕 AI Agent 的思考与实践。其核心策略是将 Agent 做“轻”做“薄”,用最轻量化的方式开源了通用 Agent——nanobot

该项目连续 100 天日更迭代,下载量突破 20 万次,被 DeepSeek 推荐为全球 15 个 Agent 之一,并曾登上 OpenRouter 平台通用 Agent 榜单第四名。

轻量只是起点。团队下一步计划用 nanobot 挑战复杂的长程任务,验证 Agent 在真实生产环境中的持续执行能力。这要求 Agent 具备跨领域协调和持续决策的综合能力,从"AI 助手”升级为“数字劳动力”。

基于此愿景,团队提出了CLI-Anything理念。核心洞察在于:与其让 Agent 费力学习人类界面(GUI),不如让软件原生支持 Agent 语言(CLI)。通过将专业软件包装为命令行接口,Agent 能直接驱动 3D 建模、设计工具等复杂应用。黄超认为,相比 GUI,CLI 才是真正 AI 原生的 Computer Use 方式。

此外,团队高度重视 Agent 的自进化能力。当前研究分为 Internal(优化内核)和 External(技能积累)两个方向。团队倾向于外向型进化,即通过扩充和优化工具库构建协同效应的 Agent 生态。实验显示,让 8 个 Agent 协调 8 张 H100 显卡进行分布式训练可显著提升效率,但也发现了边际收益递减的临界点,表明 Agent Swarm 的 Scaling Law 存在最优规模阈值。

核心观点梳理

  • Agent 架构本质是 ReAct 循环:通过 Reasoning 规划、Action 执行、Observation 反馈的基本认知循环实现通用能力,而非依赖复杂架构。
  • 模块化解耦实现泛化:Agent 通过重组已有的推理策略和行动原语适应新环境,实现跨域泛化。
  • 长程任务的核心挑战:难点在于复杂性的指数级增长。成功的 Agent 需预期错误并实现优雅降级,主动监控和优化执行过程。
  • 从错误中学习以节约成本:Agent 需在真实任务中感知错误模式,这不仅提升成功率,更是降低 Token 成本的关键。
  • CLI 优于 GUI:面向 Computer Use,GUI 模式开销大且准确度受限,CLI 是更优的软件交互方式。
  • 基于 Skill 的进化范式:相比工作流优化和参数调优,基于技能沉淀的进化展现出更强的泛化性,但仍面临工具使用层面的挑战。

Agent 架构大道至简

黄超提出公式:Agent = Model + Harness,其中 Harness 已成为生态关键。Agent 整体架构并不复杂,本质是一个 ReAct 框架的 While 循环:Reasoning 做规划→Action 调用工具→Observation 获取反馈。

基于此框架开源的nanobot,初衷是以最轻量化方式开放技术。面对 OpenClaw 等动辄百万行代码的项目,nanobot 证明了通用 Agent 核心技术无需过度复杂。目前其下载量已超 20 万次,并获得 DeepSeek 及 OpenRouter 平台的高度认可。

这一过程体现了大道至简的哲学:关键技术突破往往来自将复杂问题简单化。然而,要将 Agent 从助手升级为强生产力工具,仍面临三大核心挑战:

第一,长程任务的鲁棒性。难点在于场景的复杂多样性,任何一步错误都可能导致整体失败,需要更强的 Harness 设计保障连续性。

第二,从错误中学习的自进化能力。当前研究多关注能力上界而忽略成本控制。未来的 Agent 必须实现“自负盈亏”,在复杂任务中保持高成功率的同时大幅降低 Token 消耗。

第三,持续性环境与上下文对齐。简单的 Sandbox 重置机制不适用于长程任务,Agent 需要包含文件系统、数据存储的完整计算环境。同时,Human-Agent 对齐不能依赖人类编写完美文档,而需设计更聪明的交互,用最少的沟通传递准确的上下文。

通过开发马里奥游戏验证发现,ToB 场景对交付能力要求极其严格。真正的生产力 Agent 不仅要能写代码,更要具备系统性的测试、调试和迭代能力,这是从“玩具”向“工具”转变的关键。

从模仿人类到原生交互:CLI 更像是 Agent 的母语

构建 Agent-native 的软件交互生态是升级生产力的关键。现有的 Computer Use 主要依赖 GUI 路径,让 Agent 模仿人类视觉和鼠标操作。这种“拟人化”方案存在成本高、可靠性受限的根本缺陷。

GUI 是为人类认知设计的,强制 Agent 适配属于“削足适履”。真正的突破在于重新定义交互协议:CLI 可能才是 Agent-native 的 Computer Use 方式

团队推出了CLI Anything,将各类软件包装成命令行接口。目前CLI Hub已收录 80 个软件、31 个分类。未来软件使用应是 CLI+GUI 的混合模式:Agent 通过 CLI 高效完成复杂任务,人类通过 GUI 享受直观体验。

这种分工让同一个软件既能通过 CLI 接口供 AI 高效干活,又能通过 GUI 界面供人类使用,这才是真正的 AI-native 架构。

Agent 如何自己变强:Skill 进化与 Swarm 实验

Agent 自进化旨在让其在复杂任务中总结经验、沉淀价值。目前主要有三条路线:适应环境(迭代 workflow)、技能沉淀(总结 reusable skill)和参数更新(Reward 学习)。

前者和后者泛化性较差,因此团队选择第二条路线,构建了Open Space来实现基于 Skill 的自进化。但该路径面临高质量 Skill 稀缺、精准匹配困难及粒度管理复杂等挑战。团队希望借鉴 Wiki 检索机制来解决多粒度匹配问题。

在 44 个行业、220 个任务的测试中,进化后的 Agent 显著减少了 Token 消耗并提升了任务完成度。

在更大胆的实验中,团队用 8 个 Agent 协调 8 张 H100 显卡训练大模型,23 小时内性能提升 6%,工作量相当于一个博士 3 周的成果。实验验证了 Agent Swarm 的可行性,但也揭示了一个关键洞察:3-5 个 Agent 可能已是 оптимальный规模,更多数量未必带来更好效果。

虽然 Agent 协作沟通成本低,但任务分解、冲突协调及上下文对齐的隐性成本随规模呈指数级增长,这可能是瓶颈所在。

此外,团队还开发了 AI Researcher Agent 赋能科研,核心价值在于加速试错和信息关联。但也面临悖论:Agent 能加速试错,却无法加速科研发现的长期验证,需警惕陷入“快速产出低质量假设”的陷阱。

从 nanobot 单体到 Computer Use、Agent 协同和自进化,团队旨在突破现有边界。未来 Agent 的价值将不仅在于单点突破,更在于整个生态的协同。

感谢团队及开源社区的持续贡献。在 AI Agent 技术百花齐放的阶段,开源协作是探索技术边界、避免闭门造车的关键。

【声明】内容源于网络
0
0
量子位
各类跨境出海行业相关资讯
内容 16052
粉丝 1
量子位 各类跨境出海行业相关资讯
总阅读243.2k
粉丝1
内容16.1k