🚀 欢迎来到AI产品经理研习之旅 🚀
本文导读:
你的AI应用还在“盲飞”吗?在大模型(LLM/LMM)技术浪潮下,AI应用(如自主Agent、RAG检索增强生成系统、多步骤调用链等)的开发正面临前所未有的复杂性与挑战。传统软件开发中预设的测试用例和部署后验证,已难以应对大模型AI应用的高度随机性和动态演化特性。
正因如此,评估驱动开发(Evaluation-Driven Development, EDD)正日益成为确保大模型AI应用成功的关键理念。它通过将评测反馈融入开发全流程,为复杂的大模型AI应用系统提供了质量保障、系统稳定以及建立人类信任的基石。
最近,我抽空回看了LangChain Interrupt 2025会议的内容,“评估”成为了一个被反复提及的关键词。多位行业专家和实践者分享了他们在构建可靠AI应用方面的经验,无一例外地强调了评估的重要性。
以下是部分核心内容的概括:
|
|
|
|
|
|
|
|
|
|
|
|
Nubank: Evaluation Challenges |
|
|
|
|
|
|
|
J.P. Morgan: Building Ask D.A.V.1.D |
|
|
|
|
|
|
|
|
|
|
Unify: Learnings from Building Al Research Agents |
|
|
|
|
|
|
|
|
|
|
Harvey: Building and EvaluatingLegal Al |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Andrew Ng: State of Agents |
|
|
|
|
LangChain: Building ReliableAgents |
|
|
|
|
|
|
|
|
|
|
|
|
—
-
一个LLM Agent在处理复杂任务时可能表现出不可预测的不一致行为,甚至自行决策的过程会产生偏离用户意图或违背规则的输出。 -
多Agent的协作流程中,每一步都有误差累积的风险:即使每个子Agent都有90%的准确率,串联4个步骤的整体准确率可能跌至约65%。
—

离线评估:发布前的基线把关
在线评估
运行时评估:高风险输出的即时纠偏
[深度] 如何将大型语言模型 (LLM) 集成到系统和产品中——7种可选的实用模式(上篇)
—
Nubank:金融场景下的多维度评估体系
拉美金融科技公司 Nubank 在客服和业务代理中大规模应用了LLM,主要应用是:
每月处理850万客户咨询的客服对话机器人(首触解决率达60%,剩下由人工跟进)
内部员工用的转账指令Agent(把复杂9步操作简化到30秒以内)
鉴于金融场景的高风险和高监管要求,Nubank 构建了全面的四层评估生态,融合了离线与在线评估,并引入LLM-as-judge实现自动化评测。

1.多维度指标设计
Nubank 明确评估技术准确性和客服体验质量两个层次。技术上关注正确率、深度链接准确率(比如回答是否给出正确的APP页面链接)、幻觉率等;体验上则衡量语气友好度、共情能力,避免回答过于“机器人腔”。他们认识到,“机械但正确”的答复仍可能让客户不满,所以这些软性指标与硬性指标同等重要。
2.离线+在线评估策略


3.LLM-as-judge 自动评估

由于转账Agent每天要处理数百万笔交易,人工逐条检查输出不可行,Nubank开发了自动评估Agent,用小型GPT-4模型根据预设标准打分。工程师通过精调和提示工程反复改进评估Agent,短短两周内迭代六版,把F1分数从51%提升到79%,几乎追平人工。这一评估Agent现已融入他们的流水线:每笔交易完成后即时打分,低于阈值的触发报警或进入人工审核队列,实现了规模化的质量监控。
4.持续A/B测试与改进
Nubank 的基础架构允许随时部署新版本(平均每2分钟就有一次部署),因此评估必须跟上高速迭代。他们几乎对每个变更进行A/B测试,用线上指标如用户解决率、时长等来衡量改进是否有效。
Harvey:法律AI的严谨评估之道

1.直接引入顶尖专家审查
Harvey 与一流律所建立紧密合作,让真正办理数亿美元案件的资深律师直接参与产品评估改进。工程师经常与律所合伙人开会,请对方根据自身办案经验反馈AI哪里不够实用。

例如西班牙最大的律所Cuatrecasas的合伙人亲赴Harvey办公室,讲述他们在各执业领域使用Harvey的情况和需求。这种面对面获取专业反馈的模式使改进建议非常精准(例如要求引擎更好识别跨国税法冲突),也提升了律所对AI质量的信任。

Harvey 将这种专家反馈贯穿于评估:每当开发新功能或模型升级,第一步就是邀请相关领域专家测试并提出改进意见。这种Human-in-loop
的评估方式,虽然投入大,但在高风险领域必不可少,因为纯自动手段难以捕捉法律推理中的细微瑕疵。
2.检索阶段评估
Harvey 的AI经常需要检索法规、判例等知识,因此他们和专家合作构造检索评估集。专家提供一系列真实而困难的法律查询,每个查询都标注了最相关的参考文件集合。然后用这些“黄金标准”来评估Harvey系统的检索组件:包括传统搜索和Agent工具搜索的结果,计算Precision、Recall、NDCG等指标。
这些指标直接衡量检索结果是否把关键文件排在前列。据称,这些检索评估指标高度预测了实际用户满意度,因为如果检索阶段做不好,最终回答也不会好。
他们还测试系统在不同检索强度下的表现,例如减少可用文档或缩短上下文窗口,看模型能否依然找到答案,以评估系统在资源受限条件下的鲁棒性。
通过严苛的检索评估,Harvey确保AI“把正确的文档放在模型面前”,减少后续生成环节出现幻觉的概率。
3.生成回答评估(人工偏好+评分)
对于最终法律答案的质量评估,Harvey 建了内部工具支持逐轮对比和打分。具体有两种人工评测方式:
(1)A/B偏好测试:让法律专家同时看两个匿名的AI答案(如新模型 vs 旧模型或不同提示方案),选择哪一个更好。

(2)李克特打分:专家对每个答案按准确性、帮助度、清晰度等维度打1到7分。
为了防止偏差,他们对答案随机排序、标准化评审流程,并统计显著性。曾经Harvey用这套方法评估新出的GPT-4.1模型相对GPT-4.0在法律问答上的提升,结果显示新模型专家平均评分从5.10提高到5.63(7分满分),中位数从5提高到6,差异具统计显著性。这直接促使他们切换模型以提升用户体验。
类似地,人专家的对比评估还用于微调提示和引用格式等细节优化:例如一次评测发现“将检索文档分段提供给模型”这一小改动让答案的有用性和事实正确性都有明显提升,专家一眼就注意到了差别。由此可见,结构化的人工评审帮助Harvey团队捕捉到了许多仅靠自动指标难以发现的改进点。
4.自动评估管道与夜间回归测试
尽管专家评审严谨,但存在速度和成本瓶颈(无法大量、实时地进行)。因此Harvey开发了自动化评估管道作为补充。他们设计的自动评估器会综合模型输出、原始提问、参考资料和专家提供的评价准则来给每个回答打一个分数并附带置信度。这个评分模型相当复杂,会针对具体任务定制Rubric(如对法律分析要检查格式是否包含案件时序、建议是否有可执行性等)。

评分器输出的分数用来做几件事:
(1)日常例行评估:Harvey每晚让自动评估器跑一遍一系列轻量测试用例(canary evals),验证当日代码改动是否引入了对引证准确性、答案质量、法律精确度等的退化。
(2)线上监控:自动评分器在线上对脱敏的用户请求和回答进行抽样打分,跟踪质量趋势,如果发现某类问题分数下降会提醒团队注意(且做到不侵犯客户机密)。
(3)模型筛选:当有新基础模型(如新版GPT)推出时,先用自动评估批量测试它在现有任务上的分数,以决定是否采用并作为优化方向。通过将评估自动化,Harvey得以做到每天评估、全面覆盖、持续监控,把人工评估和自动评估的优势结合起来。
值得一提的是,他们还有针对特定任务的专门自动评估,如引证来源核验:采用嵌入+LLM双重检索来匹配验证模型产生的法律引用是否存在且对应正确案例,大幅降低了幻引文问题。

5.评估数据管理与版本控制
Harvey 非常重视评估数据的治理。他们构建了独立的评估数据服务,集中存储所有测试用的输入、输出及专家标注,并对不同数据集赋予严格的访问权限(区分公共数据和客户私密数据等)。
每个评估数据集都有版本号,一旦定版“发布”就冻结不变,用于后续迭代的基准对比。如果需要增加新测试样本,会创建新版本,但旧版本仍保留作为历史比较基线。这种做法保证了评估结果的可重复和可靠——团队可以确信两次版本之间质量变化真的是模型改进带来的,而不是评测数据变动造成的。
此外,通过平台界面,法律专家可以方便地向评估数据集中添加或修订案例,工程师则能通过API提取这些最新数据跑自动测试。
评估数据的集中和版本化极大地简化了跨团队协作,也避免了“数据散落各处、不一致”的问题。Harvey 团队认为,在处理大量机密法律数据时,这样的评估数据治理是确保评估体系稳健和安全的基础。
Monday.com:多Agent协同的评估与信任策略
协同工作平台 Monday.com 将LLM代理引入其“一站式办公OS”,用以自动执行用户任务。
他们打造了一个数字工作者团队,由多个专长不同的Agent配合完成复杂工作流。在这个过程中,Monday.com 非常强调用户信任和输出可控,其评估和质量保障实践独树一帜。

1.用户控制与Human-in-the-loop
Monday.com 发现,完全自动的Agent让很多用户不放心,“对AI最大的采用障碍是信任,而非技术本身”。因此他们在设计中加入了用户可控的自主级别设置,让用户决定Agent自动化的程度。同时,为防止Agent擅自行事损坏数据,他们实现了预执行预览机制:Agent在对Monday平台数据做改动前,先向用户展示拟议的修改,让用户确认。
这种Human-in-the-loop设计相当于实时评估了Agent的行动可接受性,把最终决定权交还用户,从而极大增强了用户信心,促进了AI功能的采用。可以说,这是在运行时评估方面的一个创造性应用——用户本身成为评估者之一,审核AI的输出。
2.多Agent协作下的幻觉管控
Monday Expert是其旗舰智能体,由四个Agent组成(主管Agent、数据检索Agent、执行操作Agent、答案生成Agent)。他们发现多Agent串联会出现“复合幻觉”难题:哪怕单个Agent准确率很高,链长增加后整体可靠度陡降。针对这一问题,他们的经验是尽量精简Agent链路同时引入外部防护。
例如,他们借鉴Cursor AI的做法,在Agent连续循环执行时加硬性上限,如工具重复调用超过25次就强制停止。这些Guardrail是在LLM之外实现的,避免模型自我纠错不力而陷入死循环。同时,他们设置了回退策略:如果Agent无法处理某些请求,就自动转为搜索知识库给出人工操作指南,而不是编造答案。这些措施本质上都是在评估Agent行为一旦偏离正常轨道时进行干预,保障最终输出可靠。
3.自建评估框架
Monday.com 视评估为核心竞争力,认为随模型和功能演进,评估体系是让产品维持高质量的关键。因此他们没有完全依赖第三方工具,而是开发了内部的评估框架,用于记录和分析AI系统在各种场景下的表现。他们的AI团队提到,从开发测试时80%满意到真正产品99%可靠,中间20%的提升“需要付出极大的努力”——而这主要通过不断完善评估集、构造新的极端场景测试来实现。举例来说,他们在上线初期就假定“99%的用户输入场景我们没有显式处理过”,因此从一开始就加入健壮的失败反馈机制:当Agent遇到未知指令或异常情况,先捕获日志并提醒人工介入,同时记录该场景用于扩充评估测试。
通过这套framework,他们能快速发现新出现的failure mode,并在下次迭代中加入对应的解决方案或防范措施,从而持续逼近“漏检率趋近于零”。
4.经验指标与快速迭代
在衡量AI成效时,Monday更注重业务指标和用户行为。例如他们跟踪引入AI后平台任务处理速度提高了多少、人力节省了多少,并监控AI功能的月活跃用户增长(据称自上线AI助手以来AI使用量月环比增长100%+)。
这些指标反过来指导他们调整评估重点:哪类任务AI用得多,就重点评估其准确率和用户反馈;哪类任务使用率低,可能意味着AI表现不好或用户不信任,也需要在评估中加入相关case去改进质量。
Monday团队的理念是:评估不只是技术指标,还有产品成功指标,两者结合才能真正驱动AI产品走向成熟。
—
LangSmith:统一的LLM应用可观测性与评估平台
LangSmith 是⼀个⽤于构建⽣产级⼤型语⾔模型(LLM)应⽤的平台。它由LangChain 开发,旨在帮助开发者监控、评估和改进他们的 LLM 应⽤。
核心功能:
(1)可观测性 (Observability):提供详细的追踪(Tracing)功能,记录LLM应⽤的每次调⽤、链和代理的执⾏过程,便于调试和监控关键指标(如请求速率、错误率、成本)。
(2)评估 (Evaluation):⽀持⾃动化评估(Automated Evals),使⽤预设或⾃定义评估器对LLM应⽤输出进⾏评分;提供数据集管理,确保评估标准化和可重复性;⽀持⼈⼯反馈(Human Feedback)和评估结果对⽐,辅助迭代优化。
例如,典型的 RAG 评估工作流程包括三个主要步骤:



(3)提⽰⼯程 (Prompt Engineering):提供提⽰词迭代、版本管理和协作功能,以及Playground⽤于快速测试和⽐较不同模型和提⽰词的效果。
扣子罗盘:中文 Agent 的“一站式评测 + 观测”平台
扣⼦罗盘是字节跳动推出的⼀款AI Agent智能调优平台,旨在为开发者提供从开发、测试到部署的全⽣命周期管理能⼒。它是⼀个⾯向企业和开发者的AI应⽤DevOps解决⽅案。

—
以上,就是关于评估驱动AI应用开发的研习分享。
本期到此结束。
再见
PS:那么,在你的AI应用开发中,是如何进行评估的呢?
👉 点赞+在看+分享,让我们一起探索更多AI前沿技术和产品实践 🌟
也欢迎你在留言区与我互动,分享你的经验和思考!
参考资料:
https://interrupt.langchain.com/video
-
https://docs.smith.langchain.com/evaluation/ An Evaluation-Driven Approach to Designing LLM Agents: Process and Architecture
https://www.zenml.io/llmops-database/building-an-ai-private-banker-with-agentic-systems-for-customer-service-and-financial-operations
https://www.harvey.ai/blog/scaling-ai-evaluation-through-expertise
https://www.zenml.io/llmops-database/building-a-digital-workforce-with-multi-agent-systems-for-task-automation
Interaction, Process, Infrastructure: A Unified Architecture for Human-Agent Collaboration
Evaluation-Driven Development of LLM Agents: A Process Model and Reference Architecture
https://loop.coze.cn/

