欢迎来到AI产品经理从0到1研习之旅。
在这个公众号的菜单中,我预定义了“AI技术”“AI产品”“AI Agent”三大块,迄今为止AI Agent还是0分享
实属不该。
这一次,它来了!
引言
在2018年的开发者大会上,谷歌宣布的一款 AI 助手——Google Duplex,一个通过电话完成实际任务的人工智能系统。它能够进行复杂的对话,并且 完全自主 地完成大部分任务,无需人工参与。当然它也具备自我监控功能,当识别到无法自主完成任务时(例如,安排异常复杂的约会),它会向可以完成任务的人类操作员发出信号 。

当时这个信息还是挺火的,而负责美业连锁门店业务系统需求的我,收到了老板的提问:“你们不是在做顾客自助预约的功能么,能不能像谷歌这样做到顾客说一句话,就自动执行预约呢?”这样的功能肯定用户体验很好!
那时我只笑笑不说话——这种AI技术,我们自研的可能性可以说为0;而那时候也还没有现在这些大模型和智能体框架。不是我不想,而是不能。
而随着以GPT大模型为代表的人工智能(AI)2.0时代的技术发展,从深度学习、机器学习、自然语言处理到计算机视觉,AI技术不断突破限制,为众多行业带来了革命性的变革,从提供客户服务的聊天机器人到为医疗保健和制造业创建的复杂机器人。特别是以GPT、Claude、Gemini等大模型的发布,使得这样的智能助手对于小企业、普通人而言也有了触手可及的可能性。
这,就是本文所要探讨的AI Agent(人工智能代理,也称为AI智能体)。
01
—
AI智能体概述
尽管ChatGPT、Midjourney、Runway、Pika等原生AI应用非常火爆,微软、谷歌、百度、淘宝等大厂在结合LLM的能力更新迭代自己的产品,很多套壳应用也层出不穷,但LLM的潜力可远远不止于用来生成好的文案、图片和视频,或者用来优化学习、体验、搜索等,它可以被定义为一个强大的通用问题求解器——也就是本文所要探讨的AI智能体。
什么是AI Agent
AI Agent 并不是一个新兴的概念,早在多年前就已在人工智能领域有了研究。在《人工智能:现代方法(第4版)》一书中,作者表示:
任何通过传感器(sensor)感知环境(environment)并通过执行器(actuator)作用于该环境的事物都可以被视为智能体(agent)。

从这个概念上而言,围棋机器人AlphaGo、苹果手机助手Siri、天猫精灵智能音箱等,都可以理解是AI Agent。
不过,我想要探讨的是一种更先进的、面向未来的人工智能代理——AI Agent旨在理解、分析和响应人类输入,像人类一样执行任务、做出决策并与环境互动。它们可以是遵循预定义规则的简单系统,也可以是根据经验学习和适应的复杂、自主的实体;可以是基于软件的实体,也可以是物理实体。它们被用于各种领域,包括机器人、游戏、虚拟助理、自动驾驶汽车等。这些智能体可以是反应性的(直接对刺激做出反应)、深思熟虑的(计划和决策),甚至具有学习能力(根据数据和经验调整它们的行为)。
相比起来,智能汽车的自动驾驶(L5级别)、(未来更完美形态的)特斯拉人型机器人Optimus这样的智能应用,会更符合我所说的AI Agent的终极形态。
AI Agent的出现标志着我们向通用人工智能(AGI)迈出了一步。在AGI中,机器将在不同领域模仿人类般的灵活性和无与伦比的熟练度(但是效率上可能远高于人类)。
AI Agent和LLM、RPA的区别
大语言模型和 AI Agent 的区别在于 AI Agent 可以独立思考并做出行动,和 RPA 的区别在于它能够处理未知环境信息:

与植根于固定参数和训练数据的标准自动化过程相比,AI Agent在不确定的环境中蓬勃发展,在未知的领域中自主导航,并处理大量新数据。它们是智能自动化的新面孔。但AI Agent又不仅仅是智能的——它擅长使用电脑,无论是直接浏览互联网、管理应用程序,还是进行金融交易和控制设备,其功能广泛而通用。
但是LLM/LMM的突破和发展,为AI Agent的实现铺平了道路,这也是为什么ChatGPT发布后关于AI Agent的讨论愈发火热。以大模型为驱动的人工智能代理具有以下优势:
-
语言交互:它们固有的理解和生成语言的能力确保了无缝的用户交互。 -
决策能力:大型语言模型具有推理和决策的能力,使其擅长解决复杂问题。 -
灵活的适应性:代理的适应性确保它们可以针对不同的应用进行调整。 -
协作交互:代理可以与人类或其他代理协作交互,为多方面交互铺平道路。
GPTs本身也可以是智能体,因为它支持“Action”。例如直接浏览网页(使用webpilot插件):

跨软件发送消息:

自动整理信息(例如根据在线客服对话提取出商机线索入库):

AI Agent 可以类比为自动驾驶的 L4 阶段,距离真正实现仍有差距(或者说,目前的表现还不理想):

AI Agent的类型
从工作模式来看,AI智能体可以分为单Agent、多Agent、混合Agent(人机交互Agent)三种类型:

单Agent:这种代理侧重于执行单一任务或一系列相关任务,且不需要与其他智能体进行交互。单个代理可以根据任务执行不同的操作,如需求分析、项目读取、代码生成等。例如手机上的Siri或Google Assistant,你可以要求它设置闹钟、查询天气、播放音乐等,每个请求都是由单个AI代理独立处理的,它根据你的命令执行特定的任务。

图:单代理应用场景的三个层次:任务导向、创新导向、生命周期导向。
多Agent:这种模式侧重于智能体之间的互动(合作或对抗)和信息共享,多个智能体协同工作,相互交流信息,共同完成更复杂的任务或目标。多agent应用场景在软件行业开发、智能生产、企业管理等高度协同的工作中非常有帮助。

图:多代理应用场景的两种交互形式:合作型互动、对抗型互动。
在这里,给大家分享一个我在去年12月份所体验的一个基于LLM的多智能体框架——MetaGPT来帮助理解,详见下方的视频。在它的基础版本中,MetaGPT内部包括产品经理 / 架构师 / 项目经理 / 工程师等多个Agents,用户只需要输入一句话的需求,它就会自己思考并最终输出用户故事、竞品分析、 需求文档、 数据结构 、APIs 、代码文件等(尽管还不完美,但已经让我震撼)。
混合Agent:这种模式中,人工智能系统和人类共同参与决策过程,交互合作完成任务,强调的是人机协作的重要性和互补性。智慧医疗、智慧城市等专业领域可以使用混合智能体来完成复杂的专业工作。以智慧医疗为例,医生和AI系统共同进行病情诊断,AI系统可以快速分析病人的医疗记录、影像资料等,提供初步的诊断建议;而医生则可以基于AI的分析结果和自己的专业知识和经验,做出最终的诊断决定。

从决策制定和行为方式的角度看,AI智能体可以分为以下类型:







在大多数环境中,仅靠目标并不足以产生高质量的行为。例如,许多动作序列都能使出租车到达目的地(从而实现目标),但有些动作序列比其他动作序列更快、更安全、更可靠或更便宜。同样是在“路线规划”中,可能会有“地铁优先”“步行最少”“换成少”“时间短”等不同的选项,这些就是用户期望的效用。



还有一些其他的分类,尽管没有出现在《人工智能:现代方法》一书中,但也值得一提:
-
信念(Belief):Duplex具有对环境的认知,比如理解用户的需求、知道餐厅的开放时间和预约规则。它能够收集和处理信息,形成对当前环境的理解。 -
欲望(Desire):它基于用户的指令,有明确的目标或欲望,如为用户预订特定日期和时间的餐厅。 -
意图(Intention):Duplex制定计划和行动步骤来实现这一目标,比如通过电话与餐厅交流,询问可用时间,确认预约细节。 -
复杂的推理和规划:在进行电话预约时,Duplex能够根据对方的回答进行即时的推理,做出合适的响应,并根据对话情况调整其行动计划,以实现用户的预约意图。


02
—
基本构成和技术原理
AI Agent的基本构成
复旦大学NLP团队在《A Survey on Large Language Model basedAutonomous Agents》一文中总结性地指出,如果基于大语言模型构建AI Agent,其总体框架由大脑、感知和行动三个关键部分组成:

-
大脑:主要由一个大型语言模型组成,该模型不仅存储知识和记忆,还承担信息处理和决策功能,能够呈现推理和规划过程,以很好地处理未知任务。 -
感知:感知模块的核心目的是将主体的感知空间从纯文本领域扩展到文本、听觉和视觉模式。 -
行动:在代理的构建中,行动模块接收大脑模块发送的动作序列,并执行与环境交互的动作。
对细节感兴趣可进一步查阅原论文:https://arxiv.org/pdf/2309.07864.pdf
-
用户消息 -
用户配置文件信息 -
用户位置 -
聊天历史记录 -
语言首选项(例如中文简体or英文) -
时间和日期 -
用户首选项 -
用户情绪识别
-
文本响应生成器:该执行器负责生成基于文本的响应并将其发送给用户。它接收聊天机器人基于文本的回复,并通过聊天界面将其发送给用户。 -
服务集成API:聊天机器人可能需要集成一个系统,如公司的CRM系统,以访问客户数据、创建支持票证或检查订单状态。这些集成涉及作为执行器的API调用,允许聊天机器人与外部系统交互,并根据需要检索或更新信息。 -
通知和提醒:通知执行器可以向用户的设备发送电子邮件通知、短信或推送通知,提醒他们即将到来的约会、订单状态更改、促销或其他相关更新。这些执行器有助于让用户了解情况并参与其中。
需要强调的是,根据选择的不同具身方法,智能体能够以软件操作、机器人、自动驾驶汽车等多种形式表现。而并不是只有软件程序层面的Action(例如根据需要决定调用指定的插件/API)。

比如知名AI专家李飞飞团队推出的具身智能框架——VoxPoser,就是将大模型接入机器人,把复杂指令转化成具体行动规划(无需额外数据和训练),让其在模拟和现实世界的各种机器人操作任务中取得了很不错的表现:

而自动驾驶,则是迄今为止我心目中最为高级的具身智能形式了:

AI Agent的工作原理

-
初始化和目标设定:开始使用AutoGPT时,首先是为它设置一个标识(比如名字),并明确它需要完成的任务。这一步骤帮助AutoGPT明确目标方向,为后续的决策和任务执行奠定基础。 -
数据分析:AutoGPT从你提供的信息开始着手工作,它会深入分析这些数据,识别其中的模式和关键细节。这个过程加深了它对任务的理解,为生成解决方案的提示打下了基础。 -
生成提示:基于对数据的分析,AutoGPT能够生成用于解决任务的自生成提示。这些提示指导AutoGPT如何有效地达成目标。 -
自主信息搜集:AutoGPT不仅仅局限于开始时提供的数据,它还会主动在互联网上搜集更多信息,以丰富自己的知识库,从而提高任务处理的深度和准确度。 -
数据审查和优化:收集到的新信息会被系统仔细审查和评估,以确保所有信息的真实性和有效性。任何误导性或不准确的内容都会被排除,保证决策依据的可靠性。 -
持续学习和改进:AutoGPT注重从每个任务中学习和自我改进。通过分析执行结果和反馈,系统不断调整和优化,使其在处理后续任务时更加高效和精准。 -
输出结果:经过一系列的分析、学习和优化后,AutoGPT会提供一个综合了所有可用信息和分析的解决方案。这个输出是对任务的深入理解和全面回应。 这是它早期的一个Demo演示:
03
—
应用场景与案例
AI Agent的应用
-
虚拟助理:像Siri、Google Assistant和Alexa这样的虚拟助理就是比较常见的AI Agent例子(只不过它们诞生之初并不是基于LLM,但在未来一定会全面集成)。它们都能感知用户的语音,处理音频,并决定对任何特定询问的最佳回应。 -
机器人:机器人领域的AI智能体包括生产线上的工业机器人到自动驾驶汽车系统。这些智能体感知多种维度的事物,并将它们糅合在一起进行合理、快速的行动响应。 -
网络安全:用于网络安全的人工智能代理可以检测恶意软件、网络入侵和DDoS攻击。智能体能感知异常的网络流量等情况,并提醒运维人员注意。 -
游戏:游戏中的AI Agent通过为非玩家角色增加深度,让玩家在游戏世界中感觉到更大的NPC活力。

我们可以看到有不同领域的智能体纷纷推出,其中很多都火出圈了。下面这张图片展示了更多:

一个更加具体的可应用案例
<未完待续,这里又挖了个坑>
...不知道什么时候才能续上...
这一篇就先分享到这吧
后续再深入个案的研习
毕竟,这是我最看好的AI的未来应用
如果你觉得我的分享还不错或者对你有帮助,不妨点个关注、在看。
也欢迎你在留言区与我互动。
参考资料:
https://lilianweng.github.io/posts/2023-06-23-agent/
https://blog.research.google/2018/05/duplex-ai-system-for-natural-conversation.html
https://botpress.com/blog/what-is-an-ai-agent
https://medium.com/humansdotai/an-introduction-to-ai-agents-e8c4afd2ee8f
https://redis.com/blog/what-is-an-ai-agent/
https://medium.com/@henryhengluo/intro-of-ai-agent-ai-agent-projects-summary-52f4a364ab86
https://techcommunity.microsoft.com/t5/educator-developer-blog/building-ai-agent-applications-series-understanding-ai-agents/ba-p/4046944
https://medium.com/how-i-use-ai/whats-an-ai-agent-and-what-are-its-current-advantages-and-possible-future-87b577719f24
《AI时代新起点,寻新投资方向(三)AI Agent,大模型时代重要落地方向》,东吴证券
《智能体专题报告之一:智能体打开智驾与机器人的星辰大海》,中银证券
《AI Agent:基于大模型的自主智能体,在探索 AGI 的道路上前进》,东吴证券
https://zapier.com/
https://www.jijyun.cn
https://github.com/geekan/MetaGPT
https://appagent-official.github.io/
https://cloud.tencent.com/solution/smart-home
https://mp.weixin.qq.com/s/SBvkWOA8H3eK3FpvZ1C4Sg
https://github.com/PKU-YuanGroup/ChatLaw
https://medium.com/@amiable_cardinal_crocodile_398/robotics-voxposer-composable-3d-value-maps-for-robotic-manipulation-with-language-models-84938e41cc51
https://www.maartengrootendorst.com/blog/autogpt/
https://arxiv.org/pdf/2309.07864.pdf
https://arxiv.org/pdf/2308.11432.pdf
https://github.com/e2b-dev/awesome-ai-agents?tab=readme-ov-file

