

理基准具有误导性
成本与准确度的权衡
研究人员在研究中强调的一个主要问题是代理评估缺乏成本控制。AI 代理的运行成本可能比单个模型调用高得多,因为它们通常依赖于随机语言模型,这些模型在多次处理相同查询时可能产生不同结果。
为了提高准确性,一些代理系统会生成多个响应,并利用投票或外部验证工具等机制来选择最佳答案。有时,对数百或数千个响应进行抽样能提升代理的准确性,但这种方法虽能提高性能,却伴随着巨大的计算成本。在研究环境中,推理成本可能不是首要考虑,因为研究的目标是最大限度地提高准确性。
然而,在实际应用中,每个查询的可用预算有限,因此对代理评估进行成本控制至关重要。若忽视这一点,研究人员可能开发出成本高昂的代理,仅为了在排行榜上占据高位。普林斯顿大学的研究人员建议,将评估结果以准确度和推理成本的帕累托曲线形式可视化,并应用针对这两个指标联合优化代理的技术。
研究人员评估了不同论文中介绍的各种提示技术和代理模式的准确性-成本权衡。他们指出:“对于基本相同的准确度,成本可能会相差近两个数量级,但运行这些代理的成本并非这些论文中报告的首要指标。”
研究人员认为,优化这两个指标可以降低代理成本,同时保持准确性。联合优化还能帮助研究人员和开发人员权衡运行代理的固定成本和可变成本,例如,通过增加代理设计优化的投入,同时在代理提示中减少上下文学习示例以降低可变成本。
研究人员在流行的问答基准HotpotQA上测试了联合优化,结果表明,联合优化公式为在准确率和推理成本之间取得最佳平衡提供了有效方法。他们强调:“有用的代理评估必须控制成本——即使我们最终不关心成本,只关心识别创新的代理设计。”“单靠准确性无法准确识别进展,因为它可能通过重试等科学上无意义的方法得到不真实的提升。”
模型开发与下游应用
过度拟合是一个问题
在学习新任务时,机器学习 (ML) 模型通常会寻找捷径,以在基准测试中取得好成绩。过度拟合是一个尤为突出的问题,即模型找到在基准测试中作弊的方法,但这些方法无法转化为现实世界中的有效结果。研究人员指出,过度拟合是代理基准测试的一个严重问题,因为这些测试往往规模较小,通常仅包含几百个样本,使得测试样本的知识容易被直接编程到代理中,比训练基础模型中的数据污染更为严重。
为了应对这一挑战,研究人员强烈建议基准测试开发人员应创建并保留保留测试集。这些测试集应由在训练期间无法被模型记住的示例组成,且只能通过真正理解目标任务才能解答。在对17个基准测试的分析中,研究人员惊讶地发现许多基准测试缺乏适当的保留数据集,这给了代理走捷径的机会,即便是无意的。
他们进一步强调,除了创建测试集外,基准测试开发人员还应考虑将其保密,以防止大语言模型(LLM)污染或代理过度拟合。同时,根据代理完成任务所需的通用性水平,需要设计不同类型的保留样本。
“基准测试开发人员必须尽最大努力确保测试不可能存在捷径,”研究人员写道,“我们认为这是基准测试开发人员的责任,而非代理开发人员的责任,因为设计不允许走捷径的基准测试,比检查每个代理是否走捷径要容易得多。”
以WebArena为例,这是一个评估AI代理解决不同网站问题性能的基准。研究人员在训练数据集中发现了多个捷径,这些捷径使代理能够过度适应任务,但面对现实世界中的微小变化时却极易失效。例如,代理可能基于网址结构的假设行事,而忽略了这些结构在未来可能的变化,以及在不同网站上可能的不适用性。
研究人员警告称,这些错误会夸大准确度的估计,并导致对代理能力的过度乐观。鉴于AI代理作为一个新兴领域,研究和开发者社区仍需深入探索如何测试这些新系统的极限,这些系统可能很快就会成为日常应用的重要组成部分。
关注我,一起探索元宇宙!
2024-07-09
2024-06-29

