Measuring Intelligence Summit | 模型评估大有可为



Measuring Intelligence Summit | 模型评估大有可为

PyTorch

2025-10-22

Part.01

会议开场：Noam Brown 采访

会议开场由Joe Spisak（来自Meta，PyTorch基金会Board成员）对来自OpenAI的Noam Brown采访开始，通过问答的形式表达对Reasoning、Inference和Multi-Agent多个领域的见解。Noam Brown作为OpenAI的研究科学家，主要从事multi-step reasoning、自我博弈以及multi-agent AI方向的研究。

两人从Noam从事poker和Diplomacy研究聊起，Noam表示这两个不仅仅是游戏，也是当时呈现AI解决复杂博弈问题的研究方式，后来他在Reasoning的研究也受到其影响。他表示AI的开源生态推动了学术届Multi-Agent领域的研究，专业实验室与开源软件之间的差距很小。对于Single Agent与Multi Agent的问题，他认为Single Agent可以做的很强大，但其效率是无法与Multi Agent相比，并且Multi Agent可以通过更丰富的Context和背景知识，达成对复杂问题的处理。

Part.02

Weaver: Shrinking the Generation-Verification Gap with Weak Verifiers - Jon Saad-Falcon, Stanford University

项目地址：https://github.com/HazyResearch/scaling-verification

演讲者介绍了Weaver项目，在不依赖昂贵的前沿大模型的情况下解决模型生成–验证代价高昂的问题。

LLM模型可以回答正确，也会错误，如何区分正确和错误？常见方式有：

人工检查。成本高，效率低，不可复制扩展。
实用更大更先进的模型，也称为Frontier Verifier，或者LLM Judger。贵，不可解释，而且所谓更先进的模型也会出错。
基于奖励模型（Reward Models）。依赖标准，泛化差。

来自Stanford的Jon Saad用Weaver的思路，也就是聚合一些小的（弱的）验证模型的来提升整体质量，用多个便宜、弱的验证器 → 通过无监督聚合 → 蒸馏成一个强大、轻量的验证模型。

核心思路来自社会学和统计学，也就是如果每个成员的错误是相互独立的，集体决策的平均结果可能比任何个体更准确。换句话说，三个臭皮匠顶个诸葛亮，这三个臭皮匠虽然单个能力都表弱，但各自不受影响地估计一头大象的重量，统计结果会比诸葛亮估计的结果准确，更接近曹冲称出来的结果。

演讲者展示测试数据，证明Weaver 通过聚合多个弱验证器，在无需依赖昂贵大模型的情况下，以更低成本在数学（MATH500）、科学（GPQA）和通识（MMLU）任务上实现接近理论上限的前沿性能。

同时展示了使用Weaver得到蒸馏模型（70B -> 400M），应用于推理阶段结果验证在确保正确率的前提下显著减少了计算量。

Part.03

Holistic Evaluation of Language Models (HELM) - Yifan Mai, Stanford University

项目地址：https://github.com/stanford-crfm/helm

HELM 尝试通过对基础模型的大规模评测来理解其能力与风险，目前已经拥有全面的测试场景。

演讲者来自Stanford的CRFM（Stanford Center for Research on Foundation Models），同时也是大名鼎鼎的李飞飞的HCAI Lab。

本研究系统介绍了模型测评的演进和挑战。HELM提出的三原则：

Comprehensive 全面

Transparent 透明

Reproducible 可复现

这三个方面目前依然有很多挑战：

全面性：文本为主的测评，多模态还在发展中；English为主到多语种的评测；多领域（例如医疗、安全、公共关系）的涉足；

透明性：原始的评估日志（Raw evaluation logs）非常少；

可复现：例如prompt的小修改和实现方式的不同会对评估结果产生影响。

除了语言模型之外，HELM 目前也扩展至多模态测评能力，对VLM，Text-to-image，ALM等模型也可进行评估。

Part.04

Scaling Agentic Intelligence from Pre-Training to RL - Aakanksha Chowdery, Reflection AI & Stanford University

演讲者主要介绍了LLM Benchmark向Agent Benchmark演进所需要具备的能力和解决的问题，认为静态Benchmark于用户实际使用场景有较大差异，无法较好的展示模型的解决实际问题能力。

同时讲解了成为Agent的挑战：Long form reasoning/Long horizon task

Long form reasoning：要求模型在面对复杂、需要大量逻辑推导的问题时，能进行长链条的推理，上下文长度会成为瓶颈，即便模型能检索长达 100 万 token 的上下文，其长度还是有限的。

Long horizon task：模型在处理跨时长的任务时，能保持思路和行动的连贯性。不会因为中途的小问题而偏离最终目标，能对超过 10 万个 token 的上下文进行推理。这要求模型在海量的长文本信息中，依然能梳理逻辑、提取关键，支撑长时程任务的推进。

Part.05

Measuring Intelligence in the Wild: Advances in Preference-Based Evaluation - Anastasios Angelopolous, LMArena

演讲者开场展示 LMArena 中对比测试的功能，选取两个模型对同一个prompt的进行处理，并展示了LMArena目前为止的统计数据。

通过列举静态和动态benchmark特点，展开讲解了动态benchmark的三个难点

自然提示（Organic prompts）—— 缺乏标准，难以复现

自然使用数据（Natrual usage data）—— 主观性强

匿名网民（Anonymous netizens）—— 质量难控

LMArena 面临的主要技术挑战是，如何从这一大规模数据中提取尽可能多的有效信息，以帮助理解和改善人类使用人工智能的体验。可以利用这些数据通过反向传播训练模型，让其成为针对特定prompt的leaderboard。

在评估 LLM 时，文本长度、markdown 格式、加粗文本等风格特征会干扰对实质内容质量的判断。通过Modeling Strategy分离风格与内容的影响，从而更准确地评估模型在内容质量上的真实表现。

更多精彩内容可以访问会议议程链接：

https://misummit25.sched.com/

【声明】内容源于网络

PyTorch

PyTorch中文社区

内容 69

粉丝 0

PyTorch PyTorch中文社区

总阅读8

粉丝0

内容69