

Meta超级智能实验室又发论文，模型混一混，性能直接SOTA

AIGC 深一度

2025-11-23

导读：在人工智能领域，大型语言模型（LLMs）如GPT系列、Llama等已经展现出惊人的能力，从自然语言理解到代码生

在人工智能领域，大型语言模型（LLMs）如GPT系列、Llama等已经展现出惊人的能力，从自然语言理解到代码生成，再到工具使用，无所不能。然而，训练这些模型需要巨大的计算资源和时间，往往需要精心调配数据混合和训练流程。最近，一种名为“模型融合”（model souping）的技术悄然兴起，它通过平均多个同架构模型的权重来提升性能，而无需昂贵的重新训练。

这篇论文由Meta和伦敦大学学院的研究团队合作完成，于2025年11月发布在arXiv上。论文提出，SoCE方法不仅超越了现有基准，还在多个领域实现了最先进的结果，包括多语言能力、工具调用和数学推理。我们将从背景、方法、实验、讨论到社会影响，全面解析这一技术。

引言：LLM训练的挑战与模型融合的崛起

大型语言模型的训练通常涉及大规模预训练、监督微调和人类反馈强化学习（RLHF）等步骤。尽管这些方法有效，但它们极其耗费资源。例如，训练一个前沿模型可能需要数百万美元的计算成本，且训练过程容易受到数据混合的影响，导致性能不稳定。模型融合作为一种后训练技术，通过平均多个模型的权重，可以显著提升性能，而无需额外训练。

传统的模型融合方法，如均匀平均（Uniform Souping），假设所有模型贡献相等，但论文指出，这种假设可能不是最优的。不同模型在不同任务上表现各异，有些任务甚至呈现负相关性。SoCE方法正是基于这一观察，通过基准测试组合来识别最优模型候选，并应用非均匀加权平均来最大化性能。

论文的主要贡献包括：

自动化检查点融合：引入SoCE，一种基于类别感知的专家选择机制。

最先进性能：在多个基准测试上实现突破，如Berkeley Function Calling Leaderboard。

更高的一致性：模型融合后，性能在不同类别间更一致、更稳健。

接下来，我们将深入SoCE的方法论。

方法论：SoCE如何工作？

SoCE的核心思想是利用基准测试类别之间的低相关性。论文发现，不同模型在不同类别上的表现往往呈现弱相关性或负相关性。例如，在多轮函数调用任务中，模型表现高度相关，但在实时准确性任务上，相关性极低。SoCE通过四个步骤来利用这种模式：

相关性分析：计算基准测试类别之间的皮尔逊相关系数，识别低相关性类别对。
专家模型选择：为每个低相关性类别选择表现最好的模型作为“专家”。
权重优化：通过搜索权重空间，找到最优加权组合，以最大化整体性能。
模型融合：应用优化后的权重，对专家模型进行加权平均。

算法1 formalizes了这一过程。具体来说，SoCE使用一个相关性阈值τ来识别低相关性类别，然后为每个类别选择最佳模型，最后通过网格搜索优化权重（权重范围从0.1到0.9，步长0.1）。

图1展示了BFCL（Berkeley Function Calling Leaderboard）上模型性能的相关性热图。深绿色区域表示高相关性（如多轮任务间相关性达0.96-0.98），而浅绿色区域表示低相关性（如多轮基础任务与实时准确性任务间相关性仅0.07）。这种模式为SoCE的专家选择提供了依据。

与先前工作相比，SoCE的创新在于：

不再依赖均匀加权，而是基于相关性优化权重。

利用合作博弈论中的Shapley值来量化模型贡献，确保选择最优候选。

这种方法不仅提升了性能，还增强了模型的一致性。接下来，我们看实验部分。

实验与结果：SoCE在多个基准测试上的表现

论文在三个主要基准测试上评估了SoCE：

Berkeley Function Calling Leaderboard (BFCL)：评估工具调用和函数调用能力，包括多轮交互、无关性检测和跨语言函数调用。

Multilingual Grade School Math Benchmark (MGSM)：评估多语言数学推理能力。

∞-Bench：评估长上下文处理能力。

此外，还使用了FLORES-36（多语言翻译基准）进行消融研究。

实验设置了多个基线方法进行对比：

均匀融合（所有候选模型）。

均匀融合结合SoCE模型选择。

SoCE（完整方法，包括模型选择和权重优化）。

BFCL结果：70亿和80亿参数模型的突破

在70亿参数模型上，SoCE实现了80.68%的准确率，比之前最好的单个模型（xLAM-2-70b）提升了2.7%。最优权重配置为xLAM-2-70b（0.5）、CoALM-70B（0.2）和watt-tool-70B（0.3）。在80亿参数模型上，SoCE达到76.50%的准确率，比最佳单个模型提升5.7%。

表1展示了详细结果。可以看出，SoCE在模型选择和权重优化上都带来了显著增益。例如，在70亿模型上，权重优化带来了2.28%的相对提升；在80亿模型上，提升达3.44%。

表1: BFCL性能对比（70亿和80亿参数模型）

模型	BFCL准确率
xLAM-2-70b	78.56%
CoALM-70B	54.49%
watt-tool-70B	73.57%
functionary-medium-70B	62.32%
均匀融合	68.33%
均匀融合+SoCE选择	78.40%
SoCE（ proposed）	80.68%

（a）70亿参数模型

模型	BFCL准确率
xLAM-2-8b	72.37%
ToolACE-2-8B	68.73%
watt-tool-8B	67.79%
BitAgent-8B	67.49%
CoALM-8B	54.52%
均匀融合	69.80%
均匀融合+SoCE选择	74.01%
SoCE（ proposed）	76.50%

（b）80亿参数模型

MGSM和∞-Bench结果：一致性提升

在MGSM基准上，SoCE使用四个70亿参数的开源模型进行融合，结果达到51.7%的准确率，比最佳单个模型提升1.57%。均匀融合会导致性能回归，但SoCE通过模型选择和权重优化避免了这一问题。

在∞-Bench上，SoCE在5个Llama 3架构的检查点上测试，显示即使模型性能相似，融合也能带来提升。SoCE比最佳候选模型提升2.05%，证明了其鲁棒性。

表2总结了这些结果。

表2: MGSM和∞-Bench结果

模型	MGSM准确率
MetaMathOctopus-7B	41.9%
MetaMathOctopus-MAPO-DPO-7B	50.9%
MathOctopus-MAPO-DPO-7B	39.0%
Mathoctopus-Parallel-7B	35.5%
均匀融合	47%
均匀融合+SoCE选择	47.8%
SoCE	51.7%

（a）MGSM基准

模型	∞-Bench准确率
候选模型1	27.24%
候选模型2	24.87%
候选模型3	26.72%
候选模型4	27.24%
候选模型5	27.44%
均匀融合	27.44%
均匀融合+SoCE选择	27.85%
SoCE	28.0%

（b）∞-Bench基准

大规模分析：融合后性能更一致

论文还对大量检查点进行了分析，发现融合后，不同类别间的性能相关性显著增加。图2展示了BFCL、FLORES-36和∞-Bench上融合前后的皮尔逊相关性矩阵。融合后，性能呈现高度线性相关，表明模型更稳健。

例如，在37个融合实验中，35个实验显示融合模型在超过20个类别上都有提升，且所有类别净增益为正。这表明SoCE可以系统性地提升模型能力，而无需大量试错。

Shapley值分析：量化模型贡献

论文引入合作博弈论中的Shapley值来量化每个模型在融合中的贡献。Shapley值衡量了玩家（模型）加入联盟时的边际贡献。在SoCE框架下，模型被视为玩家，融合性能作为特征函数。

图3展示了MGSM基准上的Shapley值分析。结果显示，SoCE选择的候选模型（如M1和M2）贡献显著更高，验证了专家选择的有效性。

具体来说，当弱模型被过度加权时（如权重0.9），平均性能会下降至37.0%，而强模型（如M2）的加入能稳定提升性能。这强调了权重优化的重要性。

讨论：SoCE的优势与局限性

SoCE方法在提升性能的同时，也带来了一些启示和挑战。

优势

效率高：无需重新训练，即可结合多个模型的优势。

一致性提升：融合后模型在不同任务上表现更一致，减少了训练中的随机性。

可扩展性：适用于多任务学习，如多语言应用、工具调用与推理结合等。

论文还指出，SoCE可以用于结合反相关能力，例如将工具调用专家、推理专家和代码专家模型融合，而无需额外训练。

局限性

基准结构依赖：SoCE假设基准测试已有类别划分，且数据点足够估计相关性。对于无类别划分的基准，需要先进行聚类。

训练阶段限制：论文只测试了后训练检查点的融合，不推荐混合不同训练阶段（如预训练和对齐后）的模型，以避免风险。

架构限制：目前主要针对密集模型，是否适用于混合专家（MoE）架构尚待验证。

缩放定律：融合更多模型可能带来收益递减，最优策略仍需探索。

社会影响

SoCE方法降低了计算门槛，促进了开源社区的协作。目前，Llama衍生模型家族已接近15万个，SoCE框架可以为这些模型提供高效的复用途径。这有助于缓解学术机构在获取前沿模型上的不平等问题。

结论与未来方向

SoCE通过简单的算术操作——加权平均，实现了LLM性能的突破。论文证明，这种方法不仅提升了基准测试成绩，还增强了模型的一致性和鲁棒性。未来，SoCE可以扩展到更多任务，如多语言融合、隐私保护场景等。最后，我们来看一些定性例子，展示SoCE在具体任务上的优势。

附录：定性例子与深入分析

任务解决案例

在BFCL基准上，SoCE能够解决单个模型失败的任务。例如：

任务java_52：SoCE正确使用"Element.class"而非"Element"，而其他模型均错误。

任务simple_267：SoCE正确省略了"month"参数，而其他模型错误包含。

表6和表7展示了这些案例。

表6: java_52任务输出对比

模型	输出
xLAM-2-70b-fc-r (错误)	使用"node_type":"Element"
watt-tool-70B (错误)	使用"node_type"="Element"
CoALM-70B (错误)	使用"node_type"="Element"
SoCE (正确)	使用"node_type"="Element.class"

表7: simple_267任务输出对比

模型	输出
xLAM-2-70b-fc-r (错误)	包含"month":"upcoming"
watt-tool-70B (错误)	包含"month"="upcoming"
CoALM-70B (错误)	包含"month"="upcoming"
SoCE (正确)	省略"month"参数

多基准评估

SoCE在无关基准（如Hellaswag、IFEval）上未出现过拟合，表现可比或更优，如表3所示。

表3: BFCL 8亿模型融合在其他基准上的表现

模型	BFCL-v3	Hellaswag	IFEval	BBH
8b-m1	69.50%	78.92%	51.68%	44.80%
8b-m2	72.37%	77.57%	45.00%	63.10%
8b-m3	67.50%	78.59%	50.36%	36.54%
融合模型-3x	76.50%	78.37%	50.60%	63.06%
融合模型-2x	76.17%	78.61%	51.92%	58.92%