本文作者:阿里云计算平台 AI搜索团队出品,转载请注明出处。
01
AI Agent:从被动响应到主动执行
随着大语言模型(LLM)能力的跃升,AI 系统正经历从被动响应到主动执行的根本性转变。智能体(Agent)作为这一转变的核心载体,能够自主感知环境、分解复杂目标、调用外部工具并持续迭代行动,将单次推理扩展为端到端的任务完成能力,使 AI 首次具备独立处理多步骤、跨系统、长周期任务的潜力。
然而,在 Agent 价值规模化落地的过程中,仍面临严峻挑战:
-
幻觉传导:错误信息在多步骤执行中被放大 -
任务失败率高:复杂任务中途失败导致前功尽弃 -
长程任务一致性难保证:执行过程中"目标漂移"现象普遍 -
工具调用可靠性不足:外部工具集成缺乏统一标准
GAIA:Agent能力的"试金石"
GAIA(General AI Assistants Benchmark)是由 Meta AI、Hugging Face 等顶级研究机构联合推出的通用 AI 助手评估基准,被业界公认为衡量 Agent 综合能力的权威标准。GAIA 包含 466 道涵盖推理、多模态处理、网页浏览、工具使用等真实场景的题目,其中300 道私有测试题用于构建全球 Leaderboard。
GAIA 的难度体现在:
需要多步骤推理和复杂规划能力
涉及真实世界的信息检索和验证
要求准确的工具调用和结果整合
GPT-4 在 GAIA 上的平均得分不超过 30%
人类专家水平为92%
02
历史性突破:首次达到人类水平
阿里云 AI 搜索团队发布全新企业级智能体框架 Ops-Agentic-Search,以 92.36% 的准确率登顶通用 Agent 能力测试权威榜单 GAIA,首次达到人类水平!

💡榜单链接:https://huggingface.co/spaces/gaia-benchmark/leaderboard
这一成绩标志着阿里云在 AI Agent 领域实现了从"跟跑"到"领跑"的跨越,不仅超越了 Manus、OpenAI Deep Research 等明星产品,更首次将 Agent 能力推进到人类专家水平,为 AI Agent 的规模化应用奠定了坚实基础。
03
Ops-Agentic-Search 是阿里云 OpenSearch 团队打造的企业级智能体框架,深度融合 OpenSearch 强大的搜索能力,构建了涵盖任务理解、动态规划、工具执行、反馈迭代、评估验证的端到端推理闭环。
框架能力概览
核心能力矩阵:
能力维度 |
内置支持 |
说明 |
多模态理解 |
✅ 原生支持 |
文档/图片/视频/语音全模态处理 |
浏览器自动化 |
✅ BrowserUse |
自主网页浏览与信息提取 |
代码执行 |
✅ CodeAgent |
Python/Shell 代码生成与执行 |
文件操作 |
✅ 内置 |
本地文件读写与处理 |
MCP 协议 |
✅ 兼容 |
支持 MCP Server 生态接入 |
Skills 体系 |
✅ 自进化 |
自动提炼与进化可复用技能 |
1. 全局动态规划(Plan-with-Files)
采用创新的plan_with_files机制,将任务规划过程、中间结果、执行状态显式文件化,实现规划与执行的深度解耦。
能力特性 |
技术实现 |
业务价值 |
突破上下文窗口限制 |
计划与中间结果外置到文件 |
解耦任务长度与上下文长度,支持超长复杂任务 |
增强任务执行一致性 |
Agent 每次行动前 reload plan |
确保每一步对齐最初目标,避免"目标漂移" |
支持动态更新与自我修正 |
步骤失败触发计划重排 |
实现自适应执行,提升复杂任务成功率 |
可观测与可解释性 |
文件形式留存执行轨迹 |
每一步的目标、结果、状态均有据可查 |
天然支持断点续传 |
从文件恢复执行状态 |
任务中断后无需从头开始,提升稳定性 |
在执行过程中对自身的输出、行为或推理过程进行自我评估和迭代改进,实现质量的持续收敛。
执行输出 → 交叉验证 → 错误识别 → 策略调整 → 重新执行↑___________________________________________↓
能力特性 |
实现效果 |
迭代式质量收敛 |
多轮自我评估与错误修正,输出质量逐步逼近最优解 |
幻觉主动抑制 |
对自身输出进行交叉式验证,降低模型过度自信导致的事实偏差 |
长链任务稳定性 |
阶段性校准防止误差在多步骤执行中累积放大 |
策略动态自适应 |
依据中间反馈实时调整执行路径,避免局部"死"循环 |
会话内经验复用 |
将失败信息结构化存入短期记忆,指导后续决策优化 |
3. 动态上下文管理
在信息完整性、推理连贯性与资源效率之间实现最优平衡,让Agent以最精准的信息视野驱动推理。
双策略协同:
策略 |
机制 |
适用场景 |
Summary 策略 |
语义级动态压缩,保留关键推理节点,将冗余内容转化为语义摘要 |
长对话历史、多轮推理链路 |
Discard 策略 |
基于时效性/相关度/依赖性多维度评估,动态淘汰低优先级内容 |
上下文窗口满载、信息过载 |
4. 自进化Skills体系
赋予智能体自我学习与持续进化的能力,实现从"单次执行"到"经验沉淀"的跃迁。
Skills 生命周期:
能力特性 |
说明 |
Skills自动提炼 |
无需人工干预,从多条推理路径中归纳抽象,提炼出可复用的结构化Skills |
Skills自进化机制 |
形成「执行 → 提炼 → 应用 → 再提炼」闭环,驱动技能质量螺旋式跃升 |
Skills驱动推理加速 |
面对同类任务,已有Skills直接参与后续推理路径生成,跳过重复探索 |
04
典型应用场景
场景 |
描述 |
效果 |
企业知识问答 |
基于企业内部文档库的智能问答 |
回答准确率提升至92%+ |
市场研究报告生成 |
自动收集、分析、整合多源信息 |
研究效率提升10倍+ |
代码辅助开发 |
理解需求、生成代码、调试优化 |
开发效率提升50%+ |
数据分析报告 |
自动提取数据、生成可视化图表 |
报告生成时间从天级降至分钟级 |
客户服务自动化 |
理解用户问题、查询知识库、给出解答 |
问题解决率提升至90%+ |
案例:复杂研究任务执行
任务:"分析 2025 年全球 AI Agent 市场格局,包括主要厂商、技术路线、市场份额,并预测未来 3 年发展趋势"
执行过程:
Step 1: 任务分解├── 子任务1: 收集2025年AI Agent市场主要厂商信息├── 子任务2: 分析各厂商技术路线差异├── 子任务3: 获取市场份额数据└── 子任务4: 预测未来3年发展趋势Step 2: 信息收集(并行执行)├── 搜索权威市场报告(Gartner/IDC等)├── 浏览厂商官网获取产品信息├── 检索学术论文和技术博客└── 分析开源社区活跃度Step 3: 信息整合与分析├── 交叉验证多源数据├── 识别关键趋势和模式└── 生成结构化分析报告Step 4: 报告生成├── 撰写执行摘要├── 生成详细分析章节├── 制作对比表格和图表└── 输出最终研究报告
执行结果:
-
自动完成20+次网页浏览 -
整合15+份权威报告 -
生成包含图表的完整研究报告 -
总耗时:5分钟内
05
AgenticSearch 是阿里云 OpenSearch 推出的 AI 搜索新范式,以智能体(Agent)为核心,融合深度检索、多步推理、工具调用与多模态理解,实现从"被动响应"到"主动执行"的跃迁。
产品核心能力
能力 |
说明 |
深度检索 |
Multi-Agent 协同的递进式信息检索 |
任务执行 |
支持复杂多步骤任务的端到端执行 |
工具调用 |
内置浏览器、代码执行、文件操作等工具 |
多模态理解 |
支持文档、图片、视频、语音全模态处理 |
知识库集成 |
无缝对接企业知识库和 OpenSearch 索引 |
结果验证 |
自动验证信息准确性和来源可靠性 |
快速体验
-
📖 产品介绍文档:https://developer.aliyun.com/article/1708935 -
🚀 立即体验:https://opensearch.console.aliyun.com/cn-shanghai/rag/agentic-search
06
Ops-Agentic-Search 首次登顶 GAIA 榜单 Top1,不仅是阿里云 AI 技术实力的体现,更是 AI Agent 领域的重要里程碑。我们首次将 Agent 能力推进到人类专家水平(92.36%),为 AI Agent 的规模化企业应用奠定了坚实基础。
技术贡献
-
开源贡献:核心技术将逐步开源,推动行业共同进步 -
标准制定:积极参与 MCP 等 Agent 协议标准的制定 -
生态建设:与百炼、钉钉等阿里云产品深度集成,构建完整 Agent 生态
/ END /
关于阿里云OpenSearch - 阿里云计算平台AI搜索团队 出品
阿里云 OpenSearch 是阿里巴巴集团旗下的一站式AI搜索服务平台,为企业提供智能搜索、向量检索、AI Agent 等全栈 AI 智能搜索能力。服务覆盖电商、内容、游戏、教育等多个行业,助力企业构建面向AI时代的 AI 智能搜索体验。
联系我们
-
产品咨询:访问阿里云 OpenSearch 官网(https://www.aliyun.com/product/opensearch) -
技术支持:AgenticSearch-AI 搜索交流群(https://qr.dingtalk.com/action/joingroup?code=v1,k1,NyGOvefeyVDN6kS3SZHlwzVGjcMZaY07DVvs/I1H0EU=&_dt_no_comment=1&origin=11)

