Measuring Intelligence Summit | 模型评估大有可为
PyTorch
会议开场由Joe Spisak(来自Meta,PyTorch基金会Board成员)对来自OpenAI的Noam Brown采访开始,通过问答的形式表达对Reasoning、Inference和Multi-Agent多个领域的见解。Noam Brown作为OpenAI的研究科学家,主要从事multi-step reasoning、自我博弈以及multi-agent AI方向的研究。
两人从Noam从事poker和Diplomacy研究聊起,Noam表示这两个不仅仅是游戏,也是当时呈现AI解决复杂博弈问题的研究方式,后来他在Reasoning的研究也受到其影响。他表示AI的开源生态推动了学术届Multi-Agent领域的研究,专业实验室与开源软件之间的差距很小。对于Single Agent与Multi Agent的问题,他认为Single Agent可以做的很强大,但其效率是无法与Multi Agent相比,并且Multi Agent可以通过更丰富的Context和背景知识,达成对复杂问题的处理。
Weaver: Shrinking the Generation-Verification Gap with Weak Verifiers - Jon Saad-Falcon, Stanford University
项目地址:https://github.com/HazyResearch/scaling-verification
演讲者介绍了Weaver项目,在不依赖昂贵的前沿大模型的情况下解决模型生成–验证代价高昂的问题。
LLM模型可以回答正确,也会错误,如何区分正确和错误?常见方式有:
-
-
实用更大更先进的模型,也称为Frontier Verifier,或者LLM Judger。贵,不可解释,而且所谓更先进的模型也会出错。
-
基于奖励模型(Reward Models)。依赖标准,泛化差。
来自Stanford的Jon Saad用Weaver的思路,也就是聚合一些小的(弱的)验证模型的来提升整体质量,用多个便宜、弱的验证器 → 通过无监督聚合 → 蒸馏成一个强大、轻量的验证模型。
核心思路来自社会学和统计学,也就是如果每个成员的错误是相互独立的,集体决策的平均结果可能比任何个体更准确。换句话说,三个臭皮匠顶个诸葛亮,这三个臭皮匠虽然单个能力都表弱,但各自不受影响地估计一头大象的重量,统计结果会比诸葛亮估计的结果准确,更接近曹冲称出来的结果。
演讲者展示测试数据,证明Weaver 通过聚合多个弱验证器,在无需依赖昂贵大模型的情况下,以更低成本在数学(MATH500)、科学(GPQA)和通识(MMLU)任务上实现接近理论上限的前沿性能。
同时展示了使用Weaver得到蒸馏模型(70B -> 400M),应用于推理阶段结果验证在确保正确率的前提下显著减少了计算量。
Holistic Evaluation of Language Models (HELM) - Yifan Mai, Stanford University
项目地址:https://github.com/stanford-crfm/helm
HELM 尝试通过对基础模型的大规模评测来理解其能力与风险,目前已经拥有全面的测试场景。
演讲者来自Stanford的CRFM(Stanford Center for Research on Foundation Models),同时也是大名鼎鼎的李飞飞的HCAI Lab。
本研究系统介绍了模型测评的演进和挑战。HELM提出的三原则:
全面性:文本为主的测评,多模态还在发展中;English为主到多语种的评测;多领域(例如医疗、安全、公共关系)的涉足;
透明性:原始的评估日志(Raw evaluation logs)非常少;
可复现:例如prompt的小修改和实现方式的不同会对评估结果产生影响。
除了语言模型之外,HELM 目前也扩展至多模态测评能力,对VLM,Text-to-image,ALM等模型也可进行评估。
Scaling Agentic Intelligence from Pre-Training to RL - Aakanksha Chowdery, Reflection AI & Stanford University
演讲者主要介绍了LLM Benchmark向Agent Benchmark演进所需要具备的能力和解决的问题,认为静态Benchmark于用户实际使用场景有较大差异,无法较好的展示模型的解决实际问题能力。
同时讲解了成为Agent的挑战:Long form reasoning/Long horizon task
Long form reasoning:要求模型在面对复杂、需要大量逻辑推导的问题时,能进行长链条的推理,上下文长度会成为瓶颈,即便模型能检索长达 100 万 token 的上下文,其长度还是有限的。
Long horizon task: 模型在处理跨时长的任务时,能保持思路和行动的连贯性。不会因为中途的小问题而偏离最终目标,能对超过 10 万个 token 的上下文进行推理。这要求模型在海量的长文本信息中,依然能梳理逻辑、提取关键,支撑长时程任务的推进。
Measuring Intelligence in the Wild: Advances in Preference-Based Evaluation - Anastasios Angelopolous, LMArena
演讲者开场展示 LMArena 中对比测试的功能,选取两个模型对同一个prompt的进行处理,并展示了LMArena目前为止的统计数据。
通过列举静态和动态benchmark特点,展开讲解了动态benchmark的三个难点
-
自然提示(Organic prompts)—— 缺乏标准,难以复现
-
自然使用数据(Natrual usage data)—— 主观性强
-
匿名网民(Anonymous netizens)—— 质量难控
LMArena 面临的主要技术挑战是,如何从这一大规模数据中提取尽可能多的有效信息,以帮助理解和改善人类使用人工智能的体验。可以利用这些数据通过反向传播训练模型,让其成为针对特定prompt的leaderboard。
在评估 LLM 时,文本长度、markdown 格式、加粗文本等风格特征会干扰对实质内容质量的判断。通过Modeling Strategy分离风格与内容的影响,从而更准确地评估模型在内容质量上的真实表现。
https://misummit25.sched.com/