第一个在通用任务上系统探索 LLM 缺陷发掘过程的框架。
方法
-
主考官(Examiner):负责构建包含多样化测试点的综合分类体系,并根据目标模型的表现动态优化框架,以提供一个完善和定制的评测系统来识别潜在的薄弱点。 -
出题者(Questioner):根据每个测试考点创建有挑战性的问题。通过迭代探索,出题者不断探测模型的薄弱点,并在出现新缺陷时有效地调整问题生成,发现更多薄弱点。 -
评估者(Assessor):需要分析目标模型在测试中的表现,并推测新的个性化的弱点,以将其纳入测试系统中,这对个性化的评估至关重要。
实验结果
研究者说
-
LLM 在同一任务中的不同子类上性能差距非常明显(数学任务中应用题做的不错,但是几何题性能较差); -
LLM 可能在困难的任务中表现出色,但在更简单的任务中失败(可以完成复杂的算法题,但是在基础的概念上可能出错); -
LLM 在复杂的指令和多步推理上还存在明显不足。

