大数跨境
0
0

Meta超级智能实验室又发论文,模型混一混,性能直接SOTA

Meta超级智能实验室又发论文,模型混一混,性能直接SOTA AIGC 深一度
2025-11-23
3
导读:在人工智能领域,大型语言模型(LLMs)如GPT系列、Llama等已经展现出惊人的能力,从自然语言理解到代码生
在人工智能领域,大型语言模型(LLMs)如GPT系列、Llama等已经展现出惊人的能力,从自然语言理解到代码生成,再到工具使用,无所不能。然而,训练这些模型需要巨大的计算资源和时间,往往需要精心调配数据混合和训练流程。最近,一种名为“模型融合”(model souping)的技术悄然兴起,它通过平均多个同架构模型的权重来提升性能,而无需昂贵的重新训练。
这篇论文由Meta和伦敦大学学院的研究团队合作完成,于2025年11月发布在arXiv上。论文提出,SoCE方法不仅超越了现有基准,还在多个领域实现了最先进的结果,包括多语言能力、工具调用和数学推理。我们将从背景、方法、实验、讨论到社会影响,全面解析这一技术。



01

引言:LLM训练的挑战与模型融合的崛起

大型语言模型的训练通常涉及大规模预训练、监督微调和人类反馈强化学习(RLHF)等步骤。尽管这些方法有效,但它们极其耗费资源。例如,训练一个前沿模型可能需要数百万美元的计算成本,且训练过程容易受到数据混合的影响,导致性能不稳定。模型融合作为一种后训练技术,通过平均多个模型的权重,可以显著提升性能,而无需额外训练。
传统的模型融合方法,如均匀平均(Uniform Souping),假设所有模型贡献相等,但论文指出,这种假设可能不是最优的。不同模型在不同任务上表现各异,有些任务甚至呈现负相关性。SoCE方法正是基于这一观察,通过基准测试组合来识别最优模型候选,并应用非均匀加权平均来最大化性能。
论文的主要贡献包括:
  • 自动化检查点融合:引入SoCE,一种基于类别感知的专家选择机制。
  • 最先进性能:在多个基准测试上实现突破,如Berkeley Function Calling Leaderboard。
  • 更高的一致性:模型融合后,性能在不同类别间更一致、更稳健。
接下来,我们将深入SoCE的方法论。



02

方法论:SoCE如何工作?

SoCE的核心思想是利用基准测试类别之间的低相关性。论文发现,不同模型在不同类别上的表现往往呈现弱相关性或负相关性。例如,在多轮函数调用任务中,模型表现高度相关,但在实时准确性任务上,相关性极低。SoCE通过四个步骤来利用这种模式:
  1. 相关性分析:计算基准测试类别之间的皮尔逊相关系数,识别低相关性类别对。
  2. 专家模型选择:为每个低相关性类别选择表现最好的模型作为“专家”。
  3. 权重优化:通过搜索权重空间,找到最优加权组合,以最大化整体性能。
  4. 模型融合:应用优化后的权重,对专家模型进行加权平均。
算法1 formalizes了这一过程。具体来说,SoCE使用一个相关性阈值τ来识别低相关性类别,然后为每个类别选择最佳模型,最后通过网格搜索优化权重(权重范围从0.1到0.9,步长0.1)。
图1展示了BFCL(Berkeley Function Calling Leaderboard)上模型性能的相关性热图。深绿色区域表示高相关性(如多轮任务间相关性达0.96-0.98),而浅绿色区域表示低相关性(如多轮基础任务与实时准确性任务间相关性仅0.07)。这种模式为SoCE的专家选择提供了依据。
与先前工作相比,SoCE的创新在于:
  • 不再依赖均匀加权,而是基于相关性优化权重。
  • 利用合作博弈论中的Shapley值来量化模型贡献,确保选择最优候选。
这种方法不仅提升了性能,还增强了模型的一致性。接下来,我们看实验部分。



03

实验与结果:SoCE在多个基准测试上的表现

论文在三个主要基准测试上评估了SoCE:
  • Berkeley Function Calling Leaderboard (BFCL):评估工具调用和函数调用能力,包括多轮交互、无关性检测和跨语言函数调用。
  • Multilingual Grade School Math Benchmark (MGSM):评估多语言数学推理能力。
  • ∞-Bench:评估长上下文处理能力。
此外,还使用了FLORES-36(多语言翻译基准)进行消融研究。
实验设置了多个基线方法进行对比:
  • 均匀融合(所有候选模型)。
  • 均匀融合结合SoCE模型选择。
  • SoCE(完整方法,包括模型选择和权重优化)。
BFCL结果:70亿和80亿参数模型的突破
在70亿参数模型上,SoCE实现了80.68%的准确率,比之前最好的单个模型(xLAM-2-70b)提升了2.7%。最优权重配置为xLAM-2-70b(0.5)、CoALM-70B(0.2)和watt-tool-70B(0.3)。在80亿参数模型上,SoCE达到76.50%的准确率,比最佳单个模型提升5.7%。
表1展示了详细结果。可以看出,SoCE在模型选择和权重优化上都带来了显著增益。例如,在70亿模型上,权重优化带来了2.28%的相对提升;在80亿模型上,提升达3.44%。
表1: BFCL性能对比(70亿和80亿参数模型)
模型
BFCL准确率
xLAM-2-70b
78.56%
CoALM-70B
54.49%
watt-tool-70B
73.57%
functionary-medium-70B
62.32%
均匀融合
68.33%
均匀融合+SoCE选择
78.40%
SoCE( proposed)
80.68%
(a)70亿参数模型
模型
BFCL准确率
xLAM-2-8b
72.37%
ToolACE-2-8B
68.73%
watt-tool-8B
67.79%
BitAgent-8B
67.49%
CoALM-8B
54.52%
均匀融合
69.80%
均匀融合+SoCE选择
74.01%
SoCE( proposed)
76.50%
(b)80亿参数模型
MGSM和∞-Bench结果:一致性提升
在MGSM基准上,SoCE使用四个70亿参数的开源模型进行融合,结果达到51.7%的准确率,比最佳单个模型提升1.57%。均匀融合会导致性能回归,但SoCE通过模型选择和权重优化避免了这一问题。
在∞-Bench上,SoCE在5个Llama 3架构的检查点上测试,显示即使模型性能相似,融合也能带来提升。SoCE比最佳候选模型提升2.05%,证明了其鲁棒性。
表2总结了这些结果。
表2: MGSM和∞-Bench结果
模型
MGSM准确率
MetaMathOctopus-7B
41.9%
MetaMathOctopus-MAPO-DPO-7B
50.9%
MathOctopus-MAPO-DPO-7B
39.0%
Mathoctopus-Parallel-7B
35.5%
均匀融合
47%
均匀融合+SoCE选择
47.8%
SoCE
51.7%
(a)MGSM基准
模型
∞-Bench准确率
候选模型1
27.24%
候选模型2
24.87%
候选模型3
26.72%
候选模型4
27.24%
候选模型5
27.44%
均匀融合
27.44%
均匀融合+SoCE选择
27.85%
SoCE
28.0%
(b)∞-Bench基准
大规模分析:融合后性能更一致
论文还对大量检查点进行了分析,发现融合后,不同类别间的性能相关性显著增加。图2展示了BFCL、FLORES-36和∞-Bench上融合前后的皮尔逊相关性矩阵。融合后,性能呈现高度线性相关,表明模型更稳健。
例如,在37个融合实验中,35个实验显示融合模型在超过20个类别上都有提升,且所有类别净增益为正。这表明SoCE可以系统性地提升模型能力,而无需大量试错。
Shapley值分析:量化模型贡献
论文引入合作博弈论中的Shapley值来量化每个模型在融合中的贡献。Shapley值衡量了玩家(模型)加入联盟时的边际贡献。在SoCE框架下,模型被视为玩家,融合性能作为特征函数。
图3展示了MGSM基准上的Shapley值分析。结果显示,SoCE选择的候选模型(如M1和M2)贡献显著更高,验证了专家选择的有效性。
具体来说,当弱模型被过度加权时(如权重0.9),平均性能会下降至37.0%,而强模型(如M2)的加入能稳定提升性能。这强调了权重优化的重要性。



04

讨论:SoCE的优势与局限性

SoCE方法在提升性能的同时,也带来了一些启示和挑战。
优势
  • 效率高:无需重新训练,即可结合多个模型的优势。
  • 一致性提升:融合后模型在不同任务上表现更一致,减少了训练中的随机性。
  • 可扩展性:适用于多任务学习,如多语言应用、工具调用与推理结合等。
论文还指出,SoCE可以用于结合反相关能力,例如将工具调用专家、推理专家和代码专家模型融合,而无需额外训练。
局限性
  • 基准结构依赖:SoCE假设基准测试已有类别划分,且数据点足够估计相关性。对于无类别划分的基准,需要先进行聚类。
  • 训练阶段限制:论文只测试了后训练检查点的融合,不推荐混合不同训练阶段(如预训练和对齐后)的模型,以避免风险。
  • 架构限制:目前主要针对密集模型,是否适用于混合专家(MoE)架构尚待验证。
  • 缩放定律:融合更多模型可能带来收益递减,最优策略仍需探索。



05

社会影响

SoCE方法降低了计算门槛,促进了开源社区的协作。目前,Llama衍生模型家族已接近15万个,SoCE框架可以为这些模型提供高效的复用途径。这有助于缓解学术机构在获取前沿模型上的不平等问题。



06

结论与未来方向

SoCE通过简单的算术操作——加权平均,实现了LLM性能的突破。论文证明,这种方法不仅提升了基准测试成绩,还增强了模型的一致性和鲁棒性。未来,SoCE可以扩展到更多任务,如多语言融合、隐私保护场景等。最后,我们来看一些定性例子,展示SoCE在具体任务上的优势。



07

附录:定性例子与深入分析

任务解决案例
在BFCL基准上,SoCE能够解决单个模型失败的任务。例如:
  • 任务java_52:SoCE正确使用"Element.class"而非"Element",而其他模型均错误。
  • 任务simple_267:SoCE正确省略了"month"参数,而其他模型错误包含。
表6和表7展示了这些案例。
表6: java_52任务输出对比
模型
输出
xLAM-2-70b-fc-r (错误)
使用"node_type":"Element"
watt-tool-70B (错误)
使用"node_type"="Element"
CoALM-70B (错误)
使用"node_type"="Element"
SoCE (正确)
使用"node_type"="Element.class"
表7: simple_267任务输出对比
模型
输出
xLAM-2-70b-fc-r (错误)
包含"month":"upcoming"
watt-tool-70B (错误)
包含"month"="upcoming"
CoALM-70B (错误)
包含"month"="upcoming"
SoCE (正确)
省略"month"参数
多基准评估
SoCE在无关基准(如Hellaswag、IFEval)上未出现过拟合,表现可比或更优,如表3所示。
表3: BFCL 8亿模型融合在其他基准上的表现
模型
BFCL-v3
Hellaswag
IFEval
BBH
8b-m1
69.50%
78.92%
51.68%
44.80%
8b-m2
72.37%
77.57%
45.00%
63.10%
8b-m3
67.50%
78.59%
50.36%
36.54%
融合模型-3x
76.50%
78.37%
50.60%
63.06%
融合模型-2x
76.17%
78.61%
51.92%
58.92%
FLORES-36深度分析
在FLORES-36上,SoCE在多数语言对上带来边际提升,如表5所示。尽管模型多样性较低,但SoCE仍能稳定增益。
图5展示了FLORES-36上融合前后的性能对比,橙色线表示融合输出在多数类别上优于至少一个父模型。
Shapley值图表
图6进一步验证了SoCE候选选择的优势。



08

总结

SoCE方法通过简单的加权平均,解锁了LLM的潜在性能。它不仅提升了准确率,还增强了模型的一致性,为资源受限的场景提供了高效解决方案。随着开源模型的增多,SoCE框架有望推动更多协作与创新。

更多专栏文章点击查看:
LLM 架构专栏
RAG专栏
Agent系列
强化学习系列 
商务合作扫码添加微信
备注【AI交流群】加入人工智能交流群
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。

【声明】内容源于网络
0
0
AIGC 深一度
专注AIGC领域,关注微软 OpenAI、百度文心一言、讯飞星火 DeepSeek等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC,欢迎关注 个人网站 https://www.chenbaiqi.com
内容 469
粉丝 0
AIGC 深一度 专注AIGC领域,关注微软 OpenAI、百度文心一言、讯飞星火 DeepSeek等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC,欢迎关注 个人网站 https://www.chenbaiqi.com
总阅读46
粉丝0
内容469