「万字长文」评估驱动让你的LLM产品少踩 90% 的坑——大模型时代的AI应用开发范式- 大数跨境

首页

「万字长文」评估驱动让你的LLM产品少踩 90% 的坑——大模型时代的AI应用开发范式

AI产品经理研习与实践

2025-07-01

导读：评估不是锦上添花，而是 LLM 应用能否落地的「生死线」

🚀 欢迎来到AI产品经理研习之旅 🚀

本文导读：

三大评估方式：离线 、在线 、运行时，闭环保障质量
三个实战案例：Nubank、Harvey、Monday.com
两款工具对比：LangSmith vs 扣子罗盘

你的AI应用还在“盲飞”吗？在大模型（LLM/LMM）技术浪潮下，AI应用（如自主Agent、RAG检索增强生成系统、多步骤调用链等）的开发正面临前所未有的复杂性与挑战。传统软件开发中预设的测试用例和部署后验证，已难以应对大模型AI应用的高度随机性和动态演化特性。

正因如此，评估驱动开发（Evaluation-Driven Development, EDD）正日益成为确保大模型AI应用成功的关键理念。它通过将评测反馈融入开发全流程，为复杂的大模型AI应用系统提供了质量保障、系统稳定以及建立人类信任的基石。

最近，我抽空回看了LangChain Interrupt 2025会议的内容，“评估”成为了一个被反复提及的关键词。多位行业专家和实践者分享了他们在构建可靠AI应用方面的经验，无一例外地强调了评估的重要性。

以下是部分核心内容的概括：

分享主题	相关内容
UC Berkeley: Building an lDE forData Processing Agents	评估标准仍然模糊且不断演变，持续会暴露新的失败模式。
	• 使用工具自动提取并聚类失败模式，生成评估数据集。
	• 提供界面把用户批注转换为改进提示词，并配合反馈与版本控制。
Nubank: Evaluation Challenges	Nubank 为确保可靠性，量身定制指标——客服场景重视“同理心”，转账场景重视“准确性”。
	• 采用离线评估（人工标注）+ 在线评估（跟踪、日志、告警）。
	• 借助 LLM 评审实现可扩展评估；通过提示工程、微调与 GPT-4 选型，F1 分数显著提升。
J.P. Morgan: Building Ask D.A.V.1.D	对 GenAI 而言，持续评估至关重要：
	• 独立评估各子代理，常用指标如“简洁度”。
	• 即使缺乏黄金答案，也要尽早启动评估。
	• 结合 LLM 判分 + 人工复核提升评估可靠度。
Unify: Learnings from Building Al Research Agents	大量投入评估以复现问题，使流程可重复。
	• 以准确性评估为主，辅以手动 trace 分析。
	• 某些用例出现模型峰值，转而采用“节点级评估”。
	• 提示工程对性能提升至关重要。
Harvey: Building and EvaluatingLegal Al	Harvey 采用三类评估：
	• 人工偏好（并排对比、打分）。
	• 模型自动评估（LLM+法律专家 rubric）。
	• 按任务拆解步骤逐一评估（如 RAG 流程中的查询改写、文档检索、答案生成）。
	团队实践：投入工具建设、在人机评估间求平衡，并捕获“过程数据”以促成突破。
Monday: Building ou DigitalWorkforce	在模型快速演进的环境下，评估即核心资产：
	• 人-机协作（Human-in-the-loop）确保产品质量。
	• 在 LLM 外部建立防护栏（Guardrails）。
	• 通过平衡多代理系统，避免“复合幻觉”。
Andrew Ng: State of Agents	评估常被低估，应从简单评估着手解决回归问题，再逐步完善。
Andrew Ng: State of Agents	关键技能：实现可靠的评估框架，以便衡量性能、定位每一步改进空间。
LangChain: Building ReliableAgents	质量是最大阻碍，全生命周期采用“评估驱动开发”。
	• 三类评估：离线（静态数据集/版本对比）、在线（真实流量子集）、运行时（实时纠偏/阻断不良响应）。
	• 组件：数据（数据集、线上数据）+ 评估器（代码、LLM、人工标注、无参照评估）。
	• LangTrain 助观察性；LangSmith 负责追踪。
	• 提供数据集创建、开源评估器、可定制评估、聊天模拟，以及 Align Eval / Eval Calibration（私测中）。

为了开展更深入的学习，本文将带你一探究竟。

—

大模型时代，

AI应用开发为何需要“评估驱动”？

传统软件开发依赖预先定义的测试用例和一次性的部署后验证，但大模型AI应用具有高度的随机性和动态演化特性，使得可靠性保障更加困难。例如：

一个LLM Agent在处理复杂任务时可能表现出不可预测的不一致行为，甚至自行决策的过程会产生偏离用户意图或违背规则的输出。
多Agent的协作流程中，每一步都有误差累积的风险：即使每个子Agent都有90%的准确率，串联4个步骤的整体准确率可能跌至约65%。

只有通过严格的持续评估，我们才能及时发现这些偏差，确保模型行为与预期目标和规范始终对齐，降低意外错误带来的负面后果。

此外，大模型系统的质量不仅体现在功能性能，还涉及安全性、公平性、稳定性和用户信任等多方面。简言之，评估驱动开发通过将评测反馈融入开发全流程，为复杂的大模型AI应用系统提供了质量保障、系统稳定以及建立人类信任的基石。

—

三大核心评估形式：

离线、在线与运行时评估

要实施评估驱动开发，需要建立一个完整的方法论框架，以全方位评估大模型系统在不同阶段的表现。一般来说，可以拆解为三种核心评估形式：

离线评估：发布前的基线把关

定义：在模型或Agent部署前，基于静态数据集对其行为和性能进行评估。这类似于传统软件测试，即使用预先标注的测试集或基准任务，对模型的输出进行验证。离线评估通常包含单模型评测（比如针对每个版本模型单独测准确率等）以及对比评测（如新旧两个版本输出的人工对比）。例如，Nubank团队会在每轮实验后由人工和LLM共同对不同版本进行逐样本比对评估，配合统计检验确定是否有显著改进。

价值：提供了严格的发布前验证，可以在模型投入用户之前筛查大部分问题。

注意：优势是可重复、可控；劣势是覆盖范围有限且难以完全模拟真实场景。

在线评估

定义：在模型实际运行环境中进行的评估，包括灰度发布、A/B测试或对线上流量的监控分析等。在线评估通常以持续监测为特点，即在系统上线后，实时收集模型对真实用户请求的表现数据和质量指标，判断版本差异和模型漂移情况。例如，LangSmith提供了在生产中监控LLM应用质量的功能，可以持续观察延迟、错误率以及输出质量等指标，以快速发现问题或性能下降。

价值：允许在“真实世界动态条件”下考察模型，能捕获离线测试未覆盖的长尾问题和真实用户偏好信号，并支持快速迭代改进。

注意：需要注意在线评估要做好流量隔离或限流，以控制潜在风险。

运行时评估：高风险输出的即时纠偏

定义：指在系统运行过程中实时介入模型的决策或输出，对其进行评估并可能采取干预手段的方式。这类评估融合在应用的推理链中，充当守护或监督角色。例如在对话代理中加入实时内容审查模块，在模型生成回答后立即用规则或副模型判别是否存在不当内容，若有则阻断或修改输出。又如法律AI Harvey在生成答案后，实时调用一个引证检查Agent验证所有引用的法规或判例是否准确匹配，发现引证有误就反馈降低答案评分，甚至要求重新回答。

价值：对高风险输出即时纠偏，提高系统鲁棒性和安全性。

注意：实现时需平衡评估模块的准确性与误拦截率，并考虑对响应延迟的影响。

这三种评估形式相辅相成，构成闭环：

•离线评估为新版本提供基线把关，确保“大方向不错”；

•在线评估在真实环境中持续追踪，提供模型性能的实时反馈；

•而运行时评估则作为最后防线，对个别不良输出进行即时拦截或调整。

LLM系统评估需要结合客观指标（准确率、延迟等）和主观指标（有用性、满意度等）。对于后者，充分利用人类反馈和AI评审可以建立近似的度量。

[深度] 如何将大型语言模型 (LLM) 集成到系统和产品中——7种可选的实用模式（上篇）

[深度] 如何将大型语言模型 (LLM) 集成到系统和产品中——7种可选的实用模式（下篇）

—

评估驱动开发实践：LangChain Interrupt 2025案例

为了更具体地理解评估驱动开发如何落地，接下来让我们以LangChain Interrupt 2025中的多个实践案例来展开。这些案例都公开披露了各自评估方案，并已在生产中应用，具有较高的参考价值。

Nubank：金融场景下的多维度评估体系

拉美金融科技公司 Nubank 在客服和业务代理中大规模应用了LLM，主要应用是：

每月处理850万客户咨询的客服对话机器人（首触解决率达60%，剩下由人工跟进）
内部员工用的转账指令Agent（把复杂9步操作简化到30秒以内）

鉴于金融场景的高风险和高监管要求，Nubank 构建了全面的四层评估生态，融合了离线与在线评估，并引入LLM-as-judge实现自动化评测。

1.多维度指标设计

Nubank 明确评估技术准确性和客服体验质量两个层次。技术上关注正确率、深度链接准确率（比如回答是否给出正确的APP页面链接）、幻觉率等；体验上则衡量语气友好度、共情能力，避免回答过于“机器人腔”。他们认识到，“机械但正确”的答复仍可能让客户不满，所以这些软性指标与硬性指标同等重要。

2.离线+在线评估策略

–离线方面：每次对模型或提示的实验后，都会进行人工评审和对比测试，并用统计显著性检验确定改进是否非偶然。

–在线方面：搭建了持续评估的沙盒系统。新模型会先在受控环境里接入一定比例真实用户查询进行测试，团队通过LangSmith的全量追踪看到每次对话流程、检索记录和模型决策，收集日志中出现的失误。这些失误会反馈生成新的测试案例，加入离线评估集，从而形成评估飞轮：线上观察 -> 提取问题样本 -> 回归离线测试 -> 更新模型 -> 再上线验证。这种闭环极大提高了开发迭代速度。

3.LLM-as-judge 自动评估

由于转账Agent每天要处理数百万笔交易，人工逐条检查输出不可行，Nubank开发了自动评估Agent，用小型GPT-4模型根据预设标准打分。工程师通过精调和提示工程反复改进评估Agent，短短两周内迭代六版，把F1分数从51%提升到79%，几乎追平人工。这一评估Agent现已融入他们的流水线：每笔交易完成后即时打分，低于阈值的触发报警或进入人工审核队列，实现了规模化的质量监控。

4.持续A/B测试与改进

Nubank 的基础架构允许随时部署新版本（平均每2分钟就有一次部署），因此评估必须跟上高速迭代。他们几乎对每个变更进行A/B测试，用线上指标如用户解决率、时长等来衡量改进是否有效。

Harvey：法律AI的严谨评估之道

法律AI初创公司Harvey为律师事务所提供LLM助手，被用于复杂法律问答、合同分析等高风险场景。Harvey团队构建了三大支柱的评估策略：领域专家主导的评审、自动化评估流水线、专门的数据与版本管理，确保他们的AI在输出法律建议时准确、有据且符合专业水准。

1.直接引入顶尖专家审查

Harvey 与一流律所建立紧密合作，让真正办理数亿美元案件的资深律师直接参与产品评估改进。工程师经常与律所合伙人开会，请对方根据自身办案经验反馈AI哪里不够实用。

例如西班牙最大的律所Cuatrecasas的合伙人亲赴Harvey办公室，讲述他们在各执业领域使用Harvey的情况和需求。这种面对面获取专业反馈的模式使改进建议非常精准（例如要求引擎更好识别跨国税法冲突），也提升了律所对AI质量的信任。

Harvey 将这种专家反馈贯穿于评估：每当开发新功能或模型升级，第一步就是邀请相关领域专家测试并提出改进意见。这种Human-in-loop
的评估方式，虽然投入大，但在高风险领域必不可少，因为纯自动手段难以捕捉法律推理中的细微瑕疵。

2.检索阶段评估

Harvey 的AI经常需要检索法规、判例等知识，因此他们和专家合作构造检索评估集。专家提供一系列真实而困难的法律查询，每个查询都标注了最相关的参考文件集合。然后用这些“黄金标准”来评估Harvey系统的检索组件：包括传统搜索和Agent工具搜索的结果，计算Precision、Recall、NDCG等指标。

这些指标直接衡量检索结果是否把关键文件排在前列。据称，这些检索评估指标高度预测了实际用户满意度，因为如果检索阶段做不好，最终回答也不会好。

他们还测试系统在不同检索强度下的表现，例如减少可用文档或缩短上下文窗口，看模型能否依然找到答案，以评估系统在资源受限条件下的鲁棒性。

通过严苛的检索评估，Harvey确保AI“把正确的文档放在模型面前”，减少后续生成环节出现幻觉的概率。

3.生成回答评估（人工偏好+评分）

对于最终法律答案的质量评估，Harvey 建了内部工具支持逐轮对比和打分。具体有两种人工评测方式：

（1）A/B偏好测试：让法律专家同时看两个匿名的AI答案（如新模型 vs 旧模型或不同提示方案），选择哪一个更好。

（2）李克特打分：专家对每个答案按准确性、帮助度、清晰度等维度打1到7分。

为了防止偏差，他们对答案随机排序、标准化评审流程，并统计显著性。曾经Harvey用这套方法评估新出的GPT-4.1模型相对GPT-4.0在法律问答上的提升，结果显示新模型专家平均评分从5.10提高到5.63（7分满分），中位数从5提高到6，差异具统计显著性。这直接促使他们切换模型以提升用户体验。

类似地，人专家的对比评估还用于微调提示和引用格式等细节优化：例如一次评测发现“将检索文档分段提供给模型”这一小改动让答案的有用性和事实正确性都有明显提升，专家一眼就注意到了差别。由此可见，结构化的人工评审帮助Harvey团队捕捉到了许多仅靠自动指标难以发现的改进点。

4.自动评估管道与夜间回归测试

尽管专家评审严谨，但存在速度和成本瓶颈（无法大量、实时地进行）。因此Harvey开发了自动化评估管道作为补充。他们设计的自动评估器会综合模型输出、原始提问、参考资料和专家提供的评价准则来给每个回答打一个分数并附带置信度。这个评分模型相当复杂，会针对具体任务定制Rubric（如对法律分析要检查格式是否包含案件时序、建议是否有可执行性等）。

评分器输出的分数用来做几件事：

（1）日常例行评估：Harvey每晚让自动评估器跑一遍一系列轻量测试用例（canary evals），验证当日代码改动是否引入了对引证准确性、答案质量、法律精确度等的退化。

（2）线上监控：自动评分器在线上对脱敏的用户请求和回答进行抽样打分，跟踪质量趋势，如果发现某类问题分数下降会提醒团队注意（且做到不侵犯客户机密）。

（3）模型筛选：当有新基础模型（如新版GPT）推出时，先用自动评估批量测试它在现有任务上的分数，以决定是否采用并作为优化方向。通过将评估自动化，Harvey得以做到每天评估、全面覆盖、持续监控，把人工评估和自动评估的优势结合起来。

值得一提的是，他们还有针对特定任务的专门自动评估，如引证来源核验：采用嵌入+LLM双重检索来匹配验证模型产生的法律引用是否存在且对应正确案例，大幅降低了幻引文问题。

5.评估数据管理与版本控制

Harvey 非常重视评估数据的治理。他们构建了独立的评估数据服务，集中存储所有测试用的输入、输出及专家标注，并对不同数据集赋予严格的访问权限（区分公共数据和客户私密数据等）。

每个评估数据集都有版本号，一旦定版“发布”就冻结不变，用于后续迭代的基准对比。如果需要增加新测试样本，会创建新版本，但旧版本仍保留作为历史比较基线。这种做法保证了评估结果的可重复和可靠——团队可以确信两次版本之间质量变化真的是模型改进带来的，而不是评测数据变动造成的。

此外，通过平台界面，法律专家可以方便地向评估数据集中添加或修订案例，工程师则能通过API提取这些最新数据跑自动测试。

评估数据的集中和版本化极大地简化了跨团队协作，也避免了“数据散落各处、不一致”的问题。Harvey 团队认为，在处理大量机密法律数据时，这样的评估数据治理是确保评估体系稳健和安全的基础。

Monday.com：多Agent协同的评估与信任策略

协同工作平台 Monday.com 将LLM代理引入其“一站式办公OS”，用以自动执行用户任务。

他们打造了一个数字工作者团队，由多个专长不同的Agent配合完成复杂工作流。在这个过程中，Monday.com 非常强调用户信任和输出可控，其评估和质量保障实践独树一帜。

1.用户控制与Human-in-the-loop

Monday.com 发现，完全自动的Agent让很多用户不放心，“对AI最大的采用障碍是信任，而非技术本身”。因此他们在设计中加入了用户可控的自主级别设置，让用户决定Agent自动化的程度。同时，为防止Agent擅自行事损坏数据，他们实现了预执行预览机制：Agent在对Monday平台数据做改动前，先向用户展示拟议的修改，让用户确认。

这种Human-in-the-loop设计相当于实时评估了Agent的行动可接受性，把最终决定权交还用户，从而极大增强了用户信心，促进了AI功能的采用。可以说，这是在运行时评估方面的一个创造性应用——用户本身成为评估者之一，审核AI的输出。

2.多Agent协作下的幻觉管控

Monday Expert是其旗舰智能体，由四个Agent组成（主管Agent、数据检索Agent、执行操作Agent、答案生成Agent）。他们发现多Agent串联会出现“复合幻觉”难题：哪怕单个Agent准确率很高，链长增加后整体可靠度陡降。针对这一问题，他们的经验是尽量精简Agent链路同时引入外部防护。

例如，他们借鉴Cursor AI的做法，在Agent连续循环执行时加硬性上限，如工具重复调用超过25次就强制停止。这些Guardrail是在LLM之外实现的，避免模型自我纠错不力而陷入死循环。同时，他们设置了回退策略：如果Agent无法处理某些请求，就自动转为搜索知识库给出人工操作指南，而不是编造答案。这些措施本质上都是在评估Agent行为一旦偏离正常轨道时进行干预，保障最终输出可靠。

3.自建评估框架

Monday.com 视评估为核心竞争力，认为随模型和功能演进，评估体系是让产品维持高质量的关键。因此他们没有完全依赖第三方工具，而是开发了内部的评估框架，用于记录和分析AI系统在各种场景下的表现。他们的AI团队提到，从开发测试时80%满意到真正产品99%可靠，中间20%的提升“需要付出极大的努力”——而这主要通过不断完善评估集、构造新的极端场景测试来实现。举例来说，他们在上线初期就假定“99%的用户输入场景我们没有显式处理过”，因此从一开始就加入健壮的失败反馈机制：当Agent遇到未知指令或异常情况，先捕获日志并提醒人工介入，同时记录该场景用于扩充评估测试。

通过这套framework，他们能快速发现新出现的failure mode，并在下次迭代中加入对应的解决方案或防范措施，从而持续逼近“漏检率趋近于零”。

4.经验指标与快速迭代

在衡量AI成效时，Monday更注重业务指标和用户行为。例如他们跟踪引入AI后平台任务处理速度提高了多少、人力节省了多少，并监控AI功能的月活跃用户增长（据称自上线AI助手以来AI使用量月环比增长100%+）。

这些指标反过来指导他们调整评估重点：哪类任务AI用得多，就重点评估其准确率和用户反馈；哪类任务使用率低，可能意味着AI表现不好或用户不信任，也需要在评估中加入相关case去改进质量。

Monday团队的理念是：评估不只是技术指标，还有产品成功指标，两者结合才能真正驱动AI产品走向成熟。

—

评估工具和流程：

LangSmith与扣子罗盘简介

在大模型/LMM应用中践行评估驱动开发，既是挑战也是机遇。正如前文案例所示，只有把持续评测融入开发和部署全流程，我们才能驾驭那些强大却难以捉摸的模型，让它们朝着期望的方向演化。对于AI产品经理、工程团队和评估负责人而言，EDD意味着一种更严谨可靠的迭代方式：用数据和事实说话，用评估来定义“做对了什么”。

正好，我最近在研究和学习LangChain、Dify等AI应用开发框架的过程中，初步了解到LangSmith和扣子罗盘在评测方面的支持，在此也简单分享。

LangSmith：统一的LLM应用可观测性与评估平台

LangSmith 是⼀个⽤于构建⽣产级⼤型语⾔模型（LLM）应⽤的平台。它由LangChain 开发，旨在帮助开发者监控、评估和改进他们的 LLM 应⽤。

核心功能：

（1）可观测性 (Observability)：提供详细的追踪（Tracing）功能，记录LLM应⽤的每次调⽤、链和代理的执⾏过程，便于调试和监控关键指标（如请求速率、错误率、成本）。

（2）评估 (Evaluation)：⽀持⾃动化评估（Automated Evals），使⽤预设或⾃定义评估器对LLM应⽤输出进⾏评分；提供数据集管理，确保评估标准化和可重复性；⽀持⼈⼯反馈（Human Feedback）和评估结果对⽐，辅助迭代优化。

例如，典型的 RAG 评估工作流程包括三个主要步骤：

Step1>创建包含问题及其预期答案的数据集

Step2>针对这些问题运行 RAG 应用程序

Step3>使用评估器（如答案相关性、答案准确性、检索质量）来衡量应用程序的性能

（3）提⽰⼯程 (Prompt Engineering)：提供提⽰词迭代、版本管理和协作功能，以及Playground⽤于快速测试和⽐较不同模型和提⽰词的效果。

小结： LangSmith与LangChain生态系统深度集成（但可以不依赖于LangChain框架），提供全面的可观测性和强大的评估能力，支持团队协作。但其学习成本相对较高，且功能更偏向LangChain用户。

扣子罗盘：中文 Agent 的“一站式评测 + 观测”平台

扣⼦罗盘是字节跳动推出的⼀款AI Agent智能调优平台，旨在为开发者提供从开发、测试到部署的全⽣命周期管理能⼒。它是⼀个⾯向企业和开发者的AI应⽤DevOps解决⽅案。

核心功能：

（1）Prompt智能中枢：⽀持Prompt调试、版本管理和多版本对比，提供AI辅助优化功能，提升Prompt开发效率。

（2）全链路评测体系：覆盖AI Agent端到端测试，⽀持⾃定义数据集和评估标准，科学量化模型表现；内置专家评估器，⽀持多对象评测，提供开箱即⽤的结果洞察分析、多实验对⽐及观测能⼒。

（3）实时观测预警：通过Trace数据追踪、性能统计和异常告警，快速定位问题根源；可视化展⽰AI⼯作流程，包括⽤⼾输⼊、模型调⽤和⼯具调⽤，实现全链路透明化。

（4）多模型对⽐：⽀持不同模型（如DeepSeek、⾖包等）的性能对⽐，帮助开发者选择最优⽅案。

小结：扣子罗盘提供AI Agent全生命周期管理，尤其在Agent轨迹评测方面具有独特优势，通过可视化界面和自动化工具降低开发门槛。但其生态系统可能相对封闭（相较于LangSmith的开源背景，扣⼦罗盘可能更侧重于coze内部⽣态，自定义程度有限）。

—

最后>>>

在大模型AI应用开发的征途中，评估驱动开发是确保产品质量、提升用户信任的必由之路。无论是LangSmith还是扣子罗盘，都为我们提供了强大的工具支持，帮助我们更好地驾驭AI的复杂性。

LLM Agent评估的流程模型

LLM Agent的评估驱动开发参考架构

希望本文能为您在AI应用的探索和实践过程中带来启发。让我们一起，用数据和评估的力量，打造更智能、更可靠的AI产品！

以上，就是关于评估驱动AI应用开发的研习分享。

本期到此结束。

再见

PS：那么，在你的AI应用开发中，是如何进行评估的呢？

👉 点赞+在看+分享，让我们一起探索更多AI前沿技术和产品实践 🌟

也欢迎你在留言区与我互动，分享你的经验和思考！

参考资料：

https://interrupt.langchain.com/video
https://docs.smith.langchain.com/evaluation/
An Evaluation-Driven Approach to Designing LLM Agents: Process and Architecture
https://www.zenml.io/llmops-database/building-an-ai-private-banker-with-agentic-systems-for-customer-service-and-financial-operations
https://www.harvey.ai/blog/scaling-ai-evaluation-through-expertise
https://www.zenml.io/llmops-database/building-a-digital-workforce-with-multi-agent-systems-for-task-automation
Interaction, Process, Infrastructure: A Unified Architecture for Human-Agent Collaboration
Evaluation-Driven Development of LLM Agents: A Process Model and Reference Architecture
https://loop.coze.cn/

【声明】内容源于网络

AI产品经理研习与实践

现软件产品经理、前管理咨询顾问。坚信人工智能（AI）将会深刻影响我们未来的工作、学习、生活，因此我正在积极拥抱变化、研究和学习人工智能产品经理相关的知识和技能。

内容 53

粉丝 0

AI产品经理研习与实践现软件产品经理、前管理咨询顾问。坚信人工智能（AI）将会深刻影响我们未来的工作、学习、生活，因此我正在积极拥抱变化、研究和学习人工智能产品经理相关的知识和技能。

总阅读0

粉丝0

内容53

「万字长文」评估驱动让你的LLM产品少踩 90% 的坑——大模型时代的AI应用开发范式

[深度] 如何将大型语言模型 (LLM) 集成到系统和产品中——7种可选的实用模式（上篇）

An Evaluation-Driven Approach to Designing LLM Agents: Process and Architecture

Interaction, Process, Infrastructure: A Unified Architecture for Human-Agent Collaboration

Evaluation-Driven Development of LLM Agents: A Process Model and Reference Architecture