AI原生时代下，让世界适应Agent，而非教AI做人

首页

AI原生时代下，让世界适应Agent，而非教AI做人 | 港大黄超@AIGC2026

量子位

2026-05-31

导读：CLI更像是Agent的母语

Agent 时代，究竟需要什么样的基础设施？港大助理教授黄超给出的答案是：不是让 Agent 不停地适应人，而是为 Agent 重新设计数字世界。

在 2026 中国 AIGC 产业峰会上，黄超系统梳理了其团队过去两年围绕 AI Agent 的思考与实践。其核心策略是将 Agent 做“轻”做“薄”，用最轻量化的方式开源了通用 Agent——nanobot。

该项目连续 100 天日更迭代，下载量突破 20 万次，被 DeepSeek 推荐为全球 15 个 Agent 之一，并曾登上 OpenRouter 平台通用 Agent 榜单第四名。

轻量只是起点。团队下一步计划用 nanobot 挑战复杂的长程任务，验证 Agent 在真实生产环境中的持续执行能力。这要求 Agent 具备跨领域协调和持续决策的综合能力，从"AI 助手”升级为“数字劳动力”。

基于此愿景，团队提出了CLI-Anything理念。核心洞察在于：与其让 Agent 费力学习人类界面（GUI），不如让软件原生支持 Agent 语言（CLI）。通过将专业软件包装为命令行接口，Agent 能直接驱动 3D 建模、设计工具等复杂应用。黄超认为，相比 GUI，CLI 才是真正 AI 原生的 Computer Use 方式。

此外，团队高度重视 Agent 的自进化能力。当前研究分为 Internal（优化内核）和 External（技能积累）两个方向。团队倾向于外向型进化，即通过扩充和优化工具库构建协同效应的 Agent 生态。实验显示，让 8 个 Agent 协调 8 张 H100 显卡进行分布式训练可显著提升效率，但也发现了边际收益递减的临界点，表明 Agent Swarm 的 Scaling Law 存在最优规模阈值。

核心观点梳理

Agent 架构本质是 ReAct 循环：通过 Reasoning 规划、Action 执行、Observation 反馈的基本认知循环实现通用能力，而非依赖复杂架构。
模块化解耦实现泛化：Agent 通过重组已有的推理策略和行动原语适应新环境，实现跨域泛化。
长程任务的核心挑战：难点在于复杂性的指数级增长。成功的 Agent 需预期错误并实现优雅降级，主动监控和优化执行过程。
从错误中学习以节约成本：Agent 需在真实任务中感知错误模式，这不仅提升成功率，更是降低 Token 成本的关键。
CLI 优于 GUI：面向 Computer Use，GUI 模式开销大且准确度受限，CLI 是更优的软件交互方式。
基于 Skill 的进化范式：相比工作流优化和参数调优，基于技能沉淀的进化展现出更强的泛化性，但仍面临工具使用层面的挑战。

Agent 架构大道至简

黄超提出公式：Agent = Model + Harness，其中 Harness 已成为生态关键。Agent 整体架构并不复杂，本质是一个 ReAct 框架的 While 循环：Reasoning 做规划→Action 调用工具→Observation 获取反馈。

基于此框架开源的nanobot，初衷是以最轻量化方式开放技术。面对 OpenClaw 等动辄百万行代码的项目，nanobot 证明了通用 Agent 核心技术无需过度复杂。目前其下载量已超 20 万次，并获得 DeepSeek 及 OpenRouter 平台的高度认可。

这一过程体现了大道至简的哲学：关键技术突破往往来自将复杂问题简单化。然而，要将 Agent 从助手升级为强生产力工具，仍面临三大核心挑战：

第一，长程任务的鲁棒性。难点在于场景的复杂多样性，任何一步错误都可能导致整体失败，需要更强的 Harness 设计保障连续性。

第二，从错误中学习的自进化能力。当前研究多关注能力上界而忽略成本控制。未来的 Agent 必须实现“自负盈亏”，在复杂任务中保持高成功率的同时大幅降低 Token 消耗。

第三，持续性环境与上下文对齐。简单的 Sandbox 重置机制不适用于长程任务，Agent 需要包含文件系统、数据存储的完整计算环境。同时，Human-Agent 对齐不能依赖人类编写完美文档，而需设计更聪明的交互，用最少的沟通传递准确的上下文。

通过开发马里奥游戏验证发现，ToB 场景对交付能力要求极其严格。真正的生产力 Agent 不仅要能写代码，更要具备系统性的测试、调试和迭代能力，这是从“玩具”向“工具”转变的关键。

从模仿人类到原生交互：CLI 更像是 Agent 的母语

构建 Agent-native 的软件交互生态是升级生产力的关键。现有的 Computer Use 主要依赖 GUI 路径，让 Agent 模仿人类视觉和鼠标操作。这种“拟人化”方案存在成本高、可靠性受限的根本缺陷。

GUI 是为人类认知设计的，强制 Agent 适配属于“削足适履”。真正的突破在于重新定义交互协议：CLI 可能才是 Agent-native 的 Computer Use 方式。

团队推出了CLI Anything，将各类软件包装成命令行接口。目前CLI Hub已收录 80 个软件、31 个分类。未来软件使用应是 CLI+GUI 的混合模式：Agent 通过 CLI 高效完成复杂任务，人类通过 GUI 享受直观体验。

这种分工让同一个软件既能通过 CLI 接口供 AI 高效干活，又能通过 GUI 界面供人类使用，这才是真正的 AI-native 架构。

Agent 如何自己变强：Skill 进化与 Swarm 实验

Agent 自进化旨在让其在复杂任务中总结经验、沉淀价值。目前主要有三条路线：适应环境（迭代 workflow）、技能沉淀（总结 reusable skill）和参数更新（Reward 学习）。

前者和后者泛化性较差，因此团队选择第二条路线，构建了Open Space来实现基于 Skill 的自进化。但该路径面临高质量 Skill 稀缺、精准匹配困难及粒度管理复杂等挑战。团队希望借鉴 Wiki 检索机制来解决多粒度匹配问题。

在 44 个行业、220 个任务的测试中，进化后的 Agent 显著减少了 Token 消耗并提升了任务完成度。

在更大胆的实验中，团队用 8 个 Agent 协调 8 张 H100 显卡训练大模型，23 小时内性能提升 6%，工作量相当于一个博士 3 周的成果。实验验证了 Agent Swarm 的可行性，但也揭示了一个关键洞察：3-5 个 Agent 可能已是 оптимальный规模，更多数量未必带来更好效果。