01
-
自动化检查点融合:引入SoCE,一种基于类别感知的专家选择机制。
-
最先进性能:在多个基准测试上实现突破,如Berkeley Function Calling Leaderboard。
-
更高的一致性:模型融合后,性能在不同类别间更一致、更稳健。
02
-
相关性分析:计算基准测试类别之间的皮尔逊相关系数,识别低相关性类别对。 -
专家模型选择:为每个低相关性类别选择表现最好的模型作为“专家”。 -
权重优化:通过搜索权重空间,找到最优加权组合,以最大化整体性能。 -
模型融合:应用优化后的权重,对专家模型进行加权平均。
-
不再依赖均匀加权,而是基于相关性优化权重。
-
利用合作博弈论中的Shapley值来量化模型贡献,确保选择最优候选。
03
-
Berkeley Function Calling Leaderboard (BFCL):评估工具调用和函数调用能力,包括多轮交互、无关性检测和跨语言函数调用。
-
Multilingual Grade School Math Benchmark (MGSM):评估多语言数学推理能力。
-
∞-Bench:评估长上下文处理能力。
-
均匀融合(所有候选模型)。
-
均匀融合结合SoCE模型选择。
-
SoCE(完整方法,包括模型选择和权重优化)。
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
04
-
效率高:无需重新训练,即可结合多个模型的优势。
-
一致性提升:融合后模型在不同任务上表现更一致,减少了训练中的随机性。
-
可扩展性:适用于多任务学习,如多语言应用、工具调用与推理结合等。
-
基准结构依赖:SoCE假设基准测试已有类别划分,且数据点足够估计相关性。对于无类别划分的基准,需要先进行聚类。
-
训练阶段限制:论文只测试了后训练检查点的融合,不推荐混合不同训练阶段(如预训练和对齐后)的模型,以避免风险。
-
架构限制:目前主要针对密集模型,是否适用于混合专家(MoE)架构尚待验证。
-
缩放定律:融合更多模型可能带来收益递减,最优策略仍需探索。
05
06
07
-
任务java_52:SoCE正确使用"Element.class"而非"Element",而其他模型均错误。
-
任务simple_267:SoCE正确省略了"month"参数,而其他模型错误包含。
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|---|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
08


