大家好啊! 本系列文章主要是笔者对一些列Agent的初体验,这些Agent实现原理各不相同,希望大家喜欢!

上一篇文章,咱们介绍了阿里WebAgent之WebDancer,WebDancer通过SFT+RL的方法使得LLM成为了ReAct LLM,最后我们通过实验也看到WebDancer在深度问题求索上有不俗的表现。就在前段时间,腾讯宣布开源了一款简单且强大的通用Agent:Youtu-Agent,其号称在WebWalkerQA数据集上达到60.71% 的准确度(使用DeepSeek-V3-0324),另外使用DeepSeek-V3.1达到71.47%,可以看到这个准确度已经挺高的了,如果大家看过之前的文章,阿里的WebWalker在此数据集上的表现大概是在40%左右,如果大家想了解WebWalkerQA的数据集可以看看之前那片文章!
接下来我们来看看腾讯对该项目的介绍:
Youtu-Agent是一个灵活、高性能的框架,用于构建、运行和评估自主智能体。除了在基准测试中名列前茅,该框架还提供了强大的智能体能力,采用开源模型即可实现例如数据分析、文件处理、深度研究等功能。可以看到Youtu-Agent的功能还是挺强大的,那我们赶紧来来"尝尝鲜"。
一、安装
# Clone the project repository
git clone https://github.com/TencentCloudADP/youtu-agent.git
cd youtu-agent
# We use `uv` to manage the virtual environment and dependencies
# Create the virtual environment
uv venv
# Activate the environment
source .venv/bin/activate
# Install all dependencies, including development tools
uv sync --group dev
# Create your environment configuration file from the example
cp .env.example .env
安装这里没有太多需要注意的,唯一是如果你的网络"不太好"的话,可以安装源指向国内的安装源,设置方式如下:
set UV_INDEX_URL=https://mirrors.aliyun.com/pypi/simple/ (Windows)
export UV_INDEX_URL=https://mirrors.aliyun.com/pypi/simple/ (Linux)
二、原理与架构
Youtu-Agent设计的核心思想是灵活、可扩展的模块化设计,能够方便开发人员基于此框架创建符合实际业务场景的Agent。
下图为Youtu-Agent的设计架构:

Youtu-Agent主要包含五个部分,Configuration(配置)、Agent Paradigms(Agent工作范式)、Enviroment(交互环境)、Toolkit(工具集)、Evaluation Framework(评估框架),下面详细解释每个部分工作内容:
1、Configuration(配置)
用官方的话说,Youtu-Agent是一个由配置驱动的框架,用户可以通过YAML文件来定义Agent的行为以及它涵盖的组件。
2、Agent Paradigms(Agent工作模式)
这里我将Agent Paradimgs翻译为工作模式,也就是说该模块提供的是Agent如何来与外部世界交互、交互的方法、过程与对外部世界的响应。Youtu-Agent支持目前主流的两种工作Agent工作模式,第一种被称为SimpleAgent(单体Agent),这其实就是我们常用的ReAct模式,第二种被称为OrchestraAgent(多智能体编排),这其实与其它框架如Owl、OpenManus里面提到的Workforce 或者 MultiAgent的概念类似,在这些概念里面,多个Agent扮演不同的角色,有的做规划、有的做执行、有的做评价,在Youtu-Agent里面,官网文档介绍采用了Plan-and-Execute策略,通过Planner(规划Agent)、Worker(执行Agent以及Reporter(报告Agent)来共同完成任务。
3、Enviroment(交互环境)
这里我将该模块翻译为交互环境,其实是想表达Agent存在于某个特定场景中的交互环境,这句话有点绕,举个例子,例如Agent在对文件系统操作的时候,就会有Shell的命令行环境,又比如Agent在对网页操作时,会有浏览器环境。我的理解是Agent在交互环境中才能够通过响应的工具来执行任务。
4、Toolkit(工具集)
Toolkit这点很好理解,它是与Enviroment相配对的,Agent在相应的环境中执行与之匹配的工具,Youtu-Agent框架提供了愈多预集成的工具,包括网络搜索、文件操作、代码执行、文档分析等。这些工具都是通用智能体必不可缺的。
5、Evaluation Framework(评估框架)
这部分是评估的框架,主要包含评估数据管理、处理以及通过Agent对表现进行自动化评估的能力。
三、案例测试
上一小节讲述了许多原理性的内容,接下来我们通过实际运行一些案例来体验Youtu-Agent的能力,看看是不是我们想象中的强大!
1、测试案例1: SimpleAgent问答
在安装完成后,我们可以通过命令行启动一个SimpleAgent,启动命令如下:
python scripts/cli_chat.py --config_name simple_agents/search_agent.yaml --stream
启动后的效果如下:
那今天还是用之前我们测试的用例,用例如下:
“中国国足的一场比赛,国足首先失球,由一名宿姓球员扳平了。后来还发生了点球。比分最终是平均。有可能是哪几场比赛?” 哈哈,对这个问题很熟悉吧,看看Youtu-Agent的效果咋样,可以看到输入问题后就开启了整个任务的过程,为了方便大家查看,我将整个任务过程分为如下几个步骤:
第一步: Youtu-Agent根据问题提取了关键字进行搜索结果并获取结果,如下图所示:
第二步: 发现上一步搜索的结果未能找到有用的信息,于是调整了搜索关键词,这一次将“宿姓球员”替换为了宿茂臻。
第三步: 通过这次搜索,Youtu-Agent发现了可能符合问题的结果,于是根据第二步发现的结果修改了搜索关键词,再次进行确认。
第四步: 根据再次的搜索找到了答案。
第五步: 搜索更详细的比赛资料
第六步: 总结比赛信息,给出改比赛的过程信息和结果
从上面这个简单的问题来看,Youtu-Agent表现很不错,在测试过程中整体表现流程、思考过程清晰、总结也很详细到位!
2、测试案例2: Orchestra 案例测试
运行如下项目给出的测试用例,改用例的问题是:
"deepseek-v3.1有哪些亮点更新?" 看来这是一个需要Agent进行总结的问题。
pythonexamples/svg_generator/main.py
启动任务后,输出日志如下图所示,可以看到Orchestra模式下是多Agent联合共同完成一个任务。
由于内容比较多,由于整个过程内容比较大,我大致进行了总结,在这个问题中,整个过程涉及3个Agent:Planner、SearchAgent以及Reporter,其中Planner主要完成对用户问题的理解和分析,把任务拆分为多个子任务,这一点我们可以看看Planner输出的消息内容:
OrchestraStreamEvent(name='plan', item=CreatePlanResult(_is_complete=False, analysis='这是一个关于DeepSeek-V3.1模型更新的查询问题。DeepSeek是一个AI模型系列,要了解其3.1版本的亮点更新,需要通过搜索来获取最新的官方发布信息、技术博客、todo=[Subtask(agent_name='SearchAgent', task='搜索DeepSeek-V3.1模型的官方发布信息和更新亮点', completed=False), Subtask(agent_name='SearchAgent', task='查找DeepSeek-V3.1的技术博客d=False), Subtask(agent_name='SearchAgent', task='搜索DeepSeek-V3.1相比之前版本的主要改进和新特性', completed=False)]), type='orchestra_stream_event')
接下来就是SearchAgent来完成各项子任务,整个过程SearchAgent会读查找的结果进行分析、判断,是否有足够的信息来回答问题,这些信息最后再由Reporter进行总结。该问题最终会生成一个SVG的文件,将DeepSeek V3.1模型的特性进行展示,效果如下图所示:
3、测试案例2: Web UI测试
Youtu-Agent除了命令行方式之外,还可以提供了WEB UI,但是在启动之前需要安装utu_agent_ui,安装方式如下:
https://tencentcloudadp.github.io/youtu-agent/frontend/
安装完成后便可以启动WEB端啦,这里需要注意,在exmaple的目录下涵盖了多种类型的Agent,这里我们选择Wide Search类型(当然用户可以根据自己的实际场景来定制Agent):
启动后效果如下图所示:
这里给出的问题如下:
"找到2025年出色的开源Agent框架,列出排名前十的Agent"
可以看到Youtu Agent的页面展示和相应速度还是不错的,在Web页面默认使用的是多Agent模式,输出的内容比较多,这里就不再赘述了,让我们一起来看看最终的效果如下图所示,可以看到整体效果还是不错,这里并给出了各项数据和框架的特性。
四、总结
好了,又到总结时刻了,最近一段时间各类开源Agent真实层出不穷,从实现效果、整体性能来看都相对年初有较大的提升,另外随着大模型能力的提升,更是对Agent的实现效果有较大的加持。最近看到一些文章和视频,业界对Agent最终的形态还存在一定的争议,有些人认为Agent最终形态应该是像Coze那样通过工作流来实现,这些人认为在工作流中预设了流程、分支等能够帮助Agent更好的完成任务,而另一部分则认为通用Agent方式是未来的形态,让Agent自主的进行思考,不要要太多认为的干涉。我认为这两种说法各有一定的道理,可能在先期阶段,LLM的能力还不足的时候,我们通过工作流的形式能够达到很好的效果,但是随着技术不断发展,大模型、MCP等工作生态的完善,通用Agent的能力会得到较大的提升。我们应该根据实际场景选择核实的方式来解决问题。
今天我们体验了腾讯Youtu-Agent,从整体上来看,该项目提供了清晰的文档,能够帮助用户快速的进行构建并对想法进行验证,整个体验流畅度高,另外Youtu-Agent提供了非常强的可扩展性,用户可以通过Configuration来实现Agent配置,从而完成特定场景任务的完成。

