大数跨境

金融可信智能体:Agentic Engineering 的工程实践与演进

金融可信智能体:Agentic Engineering 的工程实践与演进 DataFunSummit
2026-05-29
10
导读:陈京阳 蚂蚁数科智能中间件高级技术专家

导读

在大模型应用从概念验证走向产业落地的关键阶段,金融行业面临着一个普遍困境:如何让智能体真正进入生产系统,而不仅仅停留在演示原型?蚂蚁集团数字科技在服务金融客户的过程中,给出了一套系统性的工程答案——Agentic Engineering。

主要内容包括以下几个部分:

1. 从"水平通用"到"垂直专精"

2. 可信运行:基于四车间的可信智能体架构

3. 可信协作:从单智能体流水线到多智能体协作

4. 可信进化:下一代自进化模式探索

5. 方法论背后的产业洞察

6. Q&A

分享嘉宾|陈京阳 蚂蚁数科智能中间件高级技术专家

内容校对|韩珊珊

出品社区|DataFun

01

"水平通用""垂直专精"

蚂蚁数科在 2024 年从蚂蚁集团独立出来,成为专注 To B 科技服务的业务板块。基于蚂蚁集团 20 年的技术沉淀,将人工智能、隐私计算、风控、区块链等核心能力包装成商业化产品,持续深耕金融行业。

在服务客户的过程中,蚂蚁数科观察到产业 AI 落地经历了三个阶段:大模型基模的规模化部署、在基模基础上构建通用智能体、构建真正能在生产系统里稳定运行的垂类金融智能体。目前行业正处在第三阶段的攻坚期。

如何将通用智能体变成可在生产链路中运行的金融垂类智能体?这个问题背后隐藏着三个核心痛点。第一是金融场景对回答质量有着近乎严苛的要求,体现在严谨性(数字指标绝对不能错)、专业性(需要逻辑自洽的方法论和论据)、遵从性(满足金融监管、隐私保护和政策解读)三个维度。第二是单智能体架构存在天花板,受限于模型上下文 token 限制,跨领域问题需要多个专家智能体协作。第三是自进化需求与可控性的平衡,主流自动化方式不适用于金融场景。

基于这三个痛点,Agentic Engineering 被定义为一套让 Agent 能够可信运行、可信协作、可信进化的工程方法论。

02

可信运行:基于四车间的可信智能体架构

可信运行的核心是蚂蚁的"四车间"智能体构建工程范式。以"易方达黄金基金今年以来有哪些相关新闻"为例,请求经过前置改写和记忆加载后,依次进入四个车间。

第一车间是意图车间,负责识别用户意图。构建了二维意图矩阵,一级意图是金融主体(基金、保险、理财等),二级意图是金融动作(查询、对比、操作建议等)。独立的意图车间用于降低后续车间与模型交互的压力,缩减上下文。实测一级意图准确率 98.6%,二级意图准确率 92.3%

第二车间是策划车间,根据意图动态加载 Skill 技能。通过单独微调的策划模型从工具集中选取工具,完成入参填写和槽位提取(将自然语言转为 API 可识别的代码或 ID)。策划模型复用大模型原生的 function call 能力,Function Call 的 F1 值从 73% 提升到 95%

第三车间是执行车间,将策划车间输出的工具进行并发调用。依赖的供给包括蚂蚁金融数据库、三方生态工具(投顾观点、投研建议)、客户内部专有系统(流程制度、用户 KYC 信息、持仓信息等)。

第四车间是表达车间,将执行车间获取的所有数据组装在一起,结合用户原始问题,调用单独微调的表达模型生成最终回答,同时并行生成推荐问。表达模型胜和率(对比 Qwen3-32B)达到 93.35%

只有四车间还不够。团队在四车间基础上构建了 Agent Harness 工程体系,包括金融行业大模型(基于开源基模或蚂蚁百灵模型)、金融知识库、金融专家 Skill、倚天剑安全合规围栏、评测平台和可观测平台。

整个智能体基于蚂蚁开源的 Agent Universe 框架开发。这套框架主打开箱即用和敏捷开发,可以方便地集成开源模型、知识库、数据库,并参考 Spring 的设计思想支持配置化开发。

支撑四车间运转的核心是金融行业大模型。蚂蚁数科采用两阶段训练策略:第一阶段在蚂蚁内部环境训练,基于开源基模或百灵模型,结合蚂蚁财富业务数据,让模型"出厂即专家";第二阶段在客户私有化环境浅层调优,结合客户业务数据实现"千人千面"

除了通用金融大模型,团队还针对四车间关键环节训练了四个专项模型。提槽模型采用"识别-召回-重排-过滤"四段流水线设计,通过 NER 进行实体识别,关键词和向量双路召回,文本相似度和业务偏好重排序,数字精确匹配等业务规则过滤,效果准确率达到 98%

知识供给体系包含市场资讯(存量 5000 万条,日增 10 万条)、研报与机构内参(存量 30 +研报,60+机构)、320+专业工具、500+专业小模型、200+专业金融图表。

评测体系采用三层架构:L1 评测白盒逻辑(意图、提槽、策划准确性),L2 评测数据严谨性,L3 评测用户体验。评测目标是达到 85% 胜和率,以金牌理财经理为对标。可观测平台监控 TTFTToken 消耗、点赞点踩率等指标,在 端场景中首屏耗时可压缩至 秒以内。

03

可信协作:从单智能体流水线到多智能体协作

当单智能体四车间架构无法满足复杂跨领域问题时,多智能体协作成为必然选择。蚂蚁数科设计了 Lead-Expert-Express 三层协作模型。

Lead(调度官)负责问题理解、任务拆解和调度;Expert(领域专家)是独立的领域智能体,如客户画像专家、产品推荐专家,职责分离、互不干扰;Express(表达官)汇总各专家结论,输出结构化报告

实际落地采用双模混合架构:通过路由决策,高频标准化问题走"四车间"流水线模式(可控性高),复杂探索性问题走"多智能体"协作模式(灵活性高)。技术上采用 Mailbox 异步通信机制,并行调用的总时延等于各专家耗时的最大值,大幅提升响应效率。

04

可信进化:下一代自进化模式探索

智能体持续迭代优化是工程落地的重要环节。蚂蚁数科设计了两条自进化路径。

第一条是 Training-free(轻量化进化)路径,围绕提示词工程展开。通过插件采集运行轨迹,利用外置模型分析进化点,在评测集上循环迭代,通过受控发布系统(支持秒级回滚)生效。

第二条是 Training-based(深度进化)路径,围绕模型层展开。当发现意图漂移或模型能力不足时,将运行轨迹转化为训练样本并扩充,通过 LoRA 或全参数微调优化模型,评测达标后发布。某城商行的意图分类模型从 V23 的 F1 值 45% 优化到 V24 的 83.33%,严格匹配率达到 79.50%

整个自进化流程包含轨迹重建、进化点检测、迭代优化、评估门禁、受控发布五个环节,确保了过程的可控性和可追溯性。

某城商行的全行级实践

去年,蚂蚁数科为某城商行打造了全行级 AI 大模型项目,是 Agentic Engineering 方法论的完整落地。项目构建了三大金融助手:个人金融管家(To C)、理财经理辅助助手(To P)、企业经营管家(To B)。全量采用四车间架构、金融大模型、知识库及完整评测方法论,实现私有化部署。

项目验证了一个关键经验:纯靠 Prompt 工程的评测通过率上限约为 80%,若要达到 90% 以上,必须配合模型微调。对于金融这样的高要求场景,工程优化和模型优化必须双管齐下。

05

方法论背后的产业洞察

Agentic Engineering 的价值在于它揭示了产业 AI 落地的核心矛盾:差距不在模型能力,在工程方法论。当前很多企业在智能体应用上止步于原型阶段,根本原因是缺乏从原型到生产、从可行到可信的系统性工程能力。

蚂蚁数科通过四车间范式解决可信运行问题,通过LEE架构解决可信协作问题,通过双路径自进化解决可信进化问题,构成完整闭环。待解决的挑战包括协作策略自动优化、代码层自进化能力、长期记忆驱动的持续学习、评测用例自动采集等。

对于金融行业来说,Agentic Engineering 提供了一个可复制的范式。它证明了在严谨性、专业性、遵从性要求极高的场景下,通过系统性的工程方法,智能体完全可以从实验室走向业务一线。这或许也是整个产业 AI "积极探索"迈向"深化应用"的必经之路。

06

Q&A

Q1:对于没有资源进行模型微调的公司,仅通过提示词等手段,效果上限在哪里?

陈京阳:根据实际落地经验,如果以 1000 套评测集为例,纯提示词工程和上下文工程优化的上限大约在 80 分(即 80% 的通过率)。如果客户的验收标准要求达到 90 分或以上,这 10 分以上的差距必须通过模型微调来加强。这也呼应了前面提到的城商行案例经验。

Q2:金融场景中如何保证大模型回答数值准确性?

陈京阳:团队从三个层面同时发力:工程层面定义工具返回规则,将单位在工具返回阶段就处理成"亿元"等标准格式,避免模型二次加工产生错误;模型层面构造专门的训练样本,通过微调提升表达数据时的严谨性;数据层面预置算子,确保数据在存储落库阶段就是准确的。

Q3:关于响应延迟的优化怎么做的?

陈京阳:大模型调用速度慢是普遍痛点。蚂蚁数科采取"旁路"策略解决实时性问题:针对高频问题,先检索 FAQ 知识库,命中则直接输出标准答案;其次利用缓存。通过这些工程手段,面向 端的场景可以将首包响应时间压缩到 秒以内。

以上就是本次分享的内容,谢谢大家。


分享嘉宾

INTRODUCTION


陈京阳

蚂蚁数科 

智能中间件高级技术专家

拥有 10 年 ToB 商业化产品研发经验,2 年团队管理经验。智能中间件团队研发负责人,具有丰富的云原生产品以及 AI 原生产品商业化研发经验,了解主流中间件、PaaS、可观测、大模型以及 AI Agent 相关领域前沿技术。同时作为智能体工程一号位,深度参与过同业金额最大的金融智能体研发项目。

往期推荐


南京有哪些合适的 Agent/本体 Ontology 的落地场景?

DataWorks Data Agent:从增强到自主,数据智能体的范式跃迁

Agent 进不了核心业务?百度扔出一个“胜算”站上业务本体

从“字”到“画”:基于 Elasticsearch Serverless 的多模态商品搜索实践

ContextSearch:为 Agent 构建可进化的上下文层

本体:不是知识图谱的旧瓶新酒,而是大模型的语义操作系统

五月更新议题:2026·DACon·深圳站 | 内容整理志愿者招募

多模态数据存储、治理、开发管理平台实现 AI-Ready 的落地实践

当数据消费者变成 Agent:数据基础设施的下一个治理挑战

原生工具调用、多模态 Agent 与开源模型:Foundation Model 2.0 论坛直面 Agent 时代的模型演进

点个在看你最好看

SPRING HAS ARRIVED

【声明】内容源于网络
0
0
DataFunSummit
DataFun社区旗下账号,专注于分享大数据、人工智能领域行业峰会信息和嘉宾演讲内容,定期提供资料合集下载。
内容 1161
粉丝 0
DataFunSummit 北京鸿润嘉诚企业管理咨询有限公司 DataFun社区旗下账号,专注于分享大数据、人工智能领域行业峰会信息和嘉宾演讲内容,定期提供资料合集下载。
总阅读22.8k
粉丝0
内容1.2k