接近40年后的今天,AI Agent依然是从业者们追求的一种理想化的产品落地形态。
今年4月,著名AI研究者、斯坦福大学教授吴恩达在一次演讲中提到,“AI Agent正在引领工作流程的革新”。6月的夏季达沃斯上,causaLens联合创始人Darko Matovski预测AI Agent将“释放巨大的生产力,极大地改善决策”。
那么,AI Agent到底是个怎样的产品?它到底有没有实现?为什么它成为了人工智能领域的研究热点?又为什么说它是人工智能对人类的“终极模仿”?
如果打个比方来说,现在成熟应用的AI产品就像是刚学会基本办公软件用法的职场新人——懂得写文章要用Word软件,打开Excel可以在表格中输入并计算数据;而AI Agent更像是一个成熟的助理——如果你告诉助理,周五之前要出一份符合要求的商业计划书,助理会自己调动相关员工,分头进行市场调研、资料收集,筛选有用的内容,撰写计划书,配图、做表格,向你提交初稿并根据你的要求修改,调整格式,打印成册,在周五之前放在你的桌上。
AI Agent就是这种具备自主性、可学习迭代、可制定并实现目标等特点的AI智能体/代理,能够自主地感知环境、做出决策并执行动作以完成特定的任务或目标。
Al Agent 具备三个核心能力:独立思考、自主执行、持续迭代,这意味着它们可以在没有人类直接干预的情况下运作,通过内置的算法和学习机制来适应环境变化并优化其行为。其中,独立思考是指 Al Agent 能够根据给定任务目标和约束条件,进行任务规划和问题拆解,形成执行步骤(即工作流);自主执行是指Al Agent 能够调取各类组件和工具,按照执行步骤依次执行,实现任务目标;持续迭代是指 Al Agent 能够自动记录任务目标、工作流和执行结果,基于结果反馈,沉淀专家知识和案例。
如今的AI大模型已经可以帮助人们完成不少辅助性工作,如根据指令生成文本、图片和视频,或者回答特定的问题。而AI Agent的功能是更进一步的:它可以系统性地理解一个任务的目标是什么,并根据目标分解任务要求,一步步地自主调用不同的工具,最终执行和完成任务。
正如吴恩达所说,与传统的工作流程不同,AI Agent通过迭代和对话式的模式工作,不再是简单的指令执行者,而是“能够进行自我反思、规划和修正的参与者”。

当前,已有不少科技公司宣称入局AI Agent领域,不过,不同公司对自己所制造的AI Agent的定义和应用领域抱有不同的看法。
对于Google来说,AI Agent被视为“基于任务的助手”,它们根据特定工作提供帮助,例如为开发者提供编程帮助、帮助营销人员创建配色方案,或者帮助IT专业人员通过查询日志数据来追踪问题。
在Asana公司,AI Agent将负责处理分配的任务,“就像一个好同事一样”。
而Sierra,这个由前Salesforce联合首席执行官Bret Taylor和Google资深人士Clay Bavor创立的初创公司,将AI Agent视为改善客户体验的工具,用它帮助人们获得超越聊天客服机器人的体验,并为客户帮助回答更复杂的问题。
2014年,DeepMind 推出的围棋机器人AlphaGo成为明星——有人认为,AlphaGo也可以看作是AI Agent的一种:它能根据对实时接收到的信息的分析来安排和规划下一步的操作,也就是说,它满足AI Agent的基本定义。
不过,这类早期的“Agent”仅适用于狭窄的特定场景,如棋牌或虚拟游戏这类具有对抗性、有明显输赢条件的场景中。想要在真实世界中实现AI Agent的“通用性”,基于当时的技术水平还难以实现。
而近几年,AI大模型的涌现开始为AI Agent的进化提供巨大的推动力:将大模型作为AI Agent 的核心大脑,就可以将以往难以实现的复杂问题拆解成可实现的子任务。

根据图灵奖得主Yoshua Bengio提出的AGI(通用人工智能)五个层次,目前来看,AI Agent目前大致处于第三个层次(多模态感知)和第四个层次(具身与行动)之间。
Glasswing Ventures的创始人和管理合伙人Rudina Seseri指出,目前AI Agent还处于早期阶段,这可能是目前对它们定义不统一的原因。
Aaron Levie,Box的联合创始人和首席执行官,认为随着人工智能能力的增强,AI Agent将能够帮助甚至代理人类做更多的事情,目前已经有某些动态在推动这种演变。他提出,AI Agent的发展有多个影响因素,这些因素构成了一个自我增强的“飞轮”,将极大地拓展AI Agent在近期和长期内所能完成的事情,这些因素包括:GPU的价格/性能、模型的效率、模型的质量和智能、AI框架和基础设施的改进。
也有人认为,我们对AI Agent的估计或许过于乐观。麻省理工学院的机器人学专家Rodney Brooks在最近的一次采访中指出,AI面临的挑战比大多数技术要复杂得多。他提到,AI不会像摩尔定律下的芯片那样以同样的速度快速发展。人们通常会过于乐观,倾向于高估AI的能力,因为他们会将AI的表现与人类的表现相提并论,而没有充分考虑到AI在跨系统操作和处理复杂问题时可能遇到的困难。
AI Agent在实际应用中可能需要多个模型而不是单一的大型语言模型(LLM)来实现更复杂的任务。这种对大模型的依赖导致AI Agent也同样存在着目前的这些AI大模型所具备的所有缺点:生成式幻觉、盈利方式欠缺、高耗能等等。同时,这种依赖性也使得AI Agent的发展阶段无法超越大模型本身所处的阶段。
比尔·盖茨认为,在未来5年内,人工智能将让应用程序失效。在他设想的未来中,AI Agent会根据用户共享的信息来执行任务,从而代替这些程序的功能。
基于这种替代性的前景,目前已有多家公司和研究团队开始系统性地进行AI Agent应用产品的开发。
OpenAI联合创始人Andrej Karpathy在一次开发者活动中讲到,OpenAI内部对AI Agents非常感兴趣,AI Agent将是未来AI的前沿方向。扎克伯格也在Meta的一季度财报电话会上提到,Meta将会把AI Agents介绍给数十亿用户。
微软研究院开发的AutoGen是一个开源框架,旨在构建高级AI Agent和multi-Agent系统,可以为创建会话和完成任务的AI应用提供一个灵活而强大的工具包,强调模块化、可扩展性和易用性,使开发人员能够高效地构建复杂的人工智能系统。9月1日,微软研究院还发布了AutoGen Studio,这是一个低代码工具,旨在简化AI Agent的创建和管理多代理工作流的过程。该工具建立在开源AutoGen框架之上,通过提供用户友好的界面和Python API,允许开发者快速原型化AI Agent并增强其特定技能。
复旦大学徐盈辉研究员和他的团队也在研发一个可以进行灵活设计且不断自主调试的Agent开发界面。
除了软件开发,AI Agent还可以在很多不同领域应用。
例如,哈佛大学博士朱科航利用Agent对人类行为进行模仿,建模了法官、拍卖人、产品测试等角色,证明了大语言模型能够实现人类社会的近似模拟仿真。
华中科技大学陈伟教授参与的AI Hospital试图在传统就诊过程时间长、流程繁、效率低的问题上重整就诊流程。据称,AI Hospital在多个实习医生间设计了严谨的争议解决机制,让多个Agent相互比较和讨论,最终整合实习医生不同的诊断结果,不断调整和优化自己的诊断直到达成共识。
不过,从功能上来看,目前的这些AI Agent产品还只是达成了初级的“智能代理”功能,所以其盈利方式也仍止步于订阅费用和零星的定制化解决方案授权。
马文·明斯基作为Agent概念的创造者,曾坚信人的思维过程可以用机器去模拟,机器也可以有智能。他有一句流传颇广的话是:“大脑无非是肉做的机器而已”(the brain happens to be a meat machine)。从目前对AI Agent的定义里也可以看出,AI Agent的终极目标其实也遵循着这一原则:试图趋近或者复制人类的决策行为。
不过,正如比尔·盖茨在去年3月份指出的,目前在计算机行业中,对于“通用人工智能本身是否能够被创造出来”,都存在着激烈的讨论。
而这个无限接近“人类”的过程,或许看不到终点。
撰文:中国战略新兴产业融媒体记者 艾丽格玛
编辑:艾丽
设计:艾丽
审核:李子吉
政审:王军善
终审:朱永旗


