

研究警告称，AI 代理基准具有误导性

七元宇宙

2024-07-11

导读：AI 代理正在成为一个有前途的新研究方向，在现实世界中具有潜在的应用。

AI 代理正在成为一个有前途的新研究方向，在现实世界中具有潜在的应用。这些代理使用大型语言模型 (LLM) 和视觉语言模型 (VLM) 等基础模型来接受自然语言指令并自主或半自主地追求复杂目标。 AI 代理可以使用浏览器、搜索引擎和代码编译器等各种工具来验证其行为并推理其目标。

然而，普林斯顿大学研究人员最近的分析揭示了当前代理基准和评估实践中存在一些缺陷，阻碍了它们在实际应用中的实用性。

理基准具有误导性

他们的研究结果强调，代理基准测试面临着独特的挑战，我们不能以基准测试基础模型的方式来评估代理。

成本与准确度的权衡

研究人员在研究中强调的一个主要问题是代理评估缺乏成本控制。AI 代理的运行成本可能比单个模型调用高得多，因为它们通常依赖于随机语言模型，这些模型在多次处理相同查询时可能产生不同结果。

为了提高准确性，一些代理系统会生成多个响应，并利用投票或外部验证工具等机制来选择最佳答案。有时，对数百或数千个响应进行抽样能提升代理的准确性，但这种方法虽能提高性能，却伴随着巨大的计算成本。在研究环境中，推理成本可能不是首要考虑，因为研究的目标是最大限度地提高准确性。

然而，在实际应用中，每个查询的可用预算有限，因此对代理评估进行成本控制至关重要。若忽视这一点，研究人员可能开发出成本高昂的代理，仅为了在排行榜上占据高位。普林斯顿大学的研究人员建议，将评估结果以准确度和推理成本的帕累托曲线形式可视化，并应用针对这两个指标联合优化代理的技术。

研究人员评估了不同论文中介绍的各种提示技术和代理模式的准确性-成本权衡。他们指出：“对于基本相同的准确度，成本可能会相差近两个数量级，但运行这些代理的成本并非这些论文中报告的首要指标。”

研究人员认为，优化这两个指标可以降低代理成本，同时保持准确性。联合优化还能帮助研究人员和开发人员权衡运行代理的固定成本和可变成本，例如，通过增加代理设计优化的投入，同时在代理提示中减少上下文学习示例以降低可变成本。

研究人员在流行的问答基准HotpotQA上测试了联合优化，结果表明，联合优化公式为在准确率和推理成本之间取得最佳平衡提供了有效方法。他们强调：“有用的代理评估必须控制成本——即使我们最终不关心成本，只关心识别创新的代理设计。”“单靠准确性无法准确识别进展，因为它可能通过重试等科学上无意义的方法得到不真实的提升。”

模型开发与下游应用

研究人员强调的另一个重要问题是，出于研究目的评估模型与开发下游应用之间存在显著差异。在研究中，准确性往往占据主导地位，而推理成本则常被忽略。然而，在开发 AI 代理的实际应用过程中，推理成本在选择模型和技术时具有举足轻重的作用。

评估 AI 代理的推理成本是一项复杂且具挑战性的任务。这主要是因为不同模型提供商对同一模型的收费标准可能大相径庭，同时，API 调用的成本也会随时间波动，并受开发人员决策的影响。例如，在某些平台上，批量 API 调用的计费方式可能与单个调用截然不同。

为了应对这一挑战，研究人员创建了一个网站，该网站能够根据代币定价动态调整模型比较，从而提供更加准确和实用的成本估算。

此外，他们还对 NovelQA 进行了深入的案例研究，这是一个专注于长文本问答任务的基准测试。研究结果显示，用于模型评估的基准在应用于下游评估时可能产生误导性结论。例如，在 NovelQA 的原始研究中，检索增强生成（RAG）模型的表现似乎远低于长上下文模型，但在现实应用中，两者的准确率却大致相当，而长上下文模型的成本却高出 RAG 模型近 20 倍。这一发现凸显了在评估 AI 代理时综合考虑准确性与推理成本的重要性。

过度拟合是一个问题

在学习新任务时，机器学习 (ML) 模型通常会寻找捷径，以在基准测试中取得好成绩。过度拟合是一个尤为突出的问题，即模型找到在基准测试中作弊的方法，但这些方法无法转化为现实世界中的有效结果。研究人员指出，过度拟合是代理基准测试的一个严重问题，因为这些测试往往规模较小，通常仅包含几百个样本，使得测试样本的知识容易被直接编程到代理中，比训练基础模型中的数据污染更为严重。

为了应对这一挑战，研究人员强烈建议基准测试开发人员应创建并保留保留测试集。这些测试集应由在训练期间无法被模型记住的示例组成，且只能通过真正理解目标任务才能解答。在对17个基准测试的分析中，研究人员惊讶地发现许多基准测试缺乏适当的保留数据集，这给了代理走捷径的机会，即便是无意的。

他们进一步强调，除了创建测试集外，基准测试开发人员还应考虑将其保密，以防止大语言模型（LLM）污染或代理过度拟合。同时，根据代理完成任务所需的通用性水平，需要设计不同类型的保留样本。

“基准测试开发人员必须尽最大努力确保测试不可能存在捷径，”研究人员写道，“我们认为这是基准测试开发人员的责任，而非代理开发人员的责任，因为设计不允许走捷径的基准测试，比检查每个代理是否走捷径要容易得多。”

以WebArena为例，这是一个评估AI代理解决不同网站问题性能的基准。研究人员在训练数据集中发现了多个捷径，这些捷径使代理能够过度适应任务，但面对现实世界中的微小变化时却极易失效。例如，代理可能基于网址结构的假设行事，而忽略了这些结构在未来可能的变化，以及在不同网站上可能的不适用性。

研究人员警告称，这些错误会夸大准确度的估计，并导致对代理能力的过度乐观。鉴于AI代理作为一个新兴领域，研究和开发者社区仍需深入探索如何测试这些新系统的极限，这些系统可能很快就会成为日常应用的重要组成部分。

他们总结道：“AI代理基准测试尚属新兴事物，最佳实践尚未确立，因此很难区分真正的进步与炒作。我们的论点是，代理与模型存在显著差异，因此需要彻底重新考虑基准测试的实践。”

关注我，一起探索元宇宙！

免责声明：

以上发布内容和图片的目的在于传播更多行业信息，版权归原作者所有，不为商业用途，如有侵犯，敬请与我们联系。

推荐阅读:

AI后浪滚滚,德国成了被拍死在沙滩前狼浪？

2024-07-09

当收藏遇到元宇宙

2024-07-10

最好 VR 头显

2024-06-29

【声明】内容源于网络

七元宇宙

AI、Web3、Meta聚合型精选内容分享。以前沿视角，探索科技未来；让每一个人，都走在时代的前沿

内容 3217

粉丝 0

七元宇宙 AI、Web3、Meta聚合型精选内容分享。以前沿视角，探索科技未来；让每一个人，都走在时代的前沿

总阅读415

粉丝0

内容3.2k