JIUTIAN Research | EMNLP 2025 精选论文导读：MoE如何提质增效



JIUTIAN Research | EMNLP 2025 精选论文导读：MoE如何提质增效

九天人工智能

2025-12-17

在AI领域，让模型同时具备强大性能、高效率和低资源占用，如同想要一杯“少糖、好喝、还不胖”的奶茶，是个经典的难题。如今，一种创新的思路正备受关注——混合专家模型（Mixture of Experts, MoE）。它可以被想象成一个“智能决策委员会”，系统面对复杂问题会智能地召唤最擅长的“专家”来处理，而非动员所有专家。这样既节约了算力，又提升了表现，堪称大模型界的“精准调度大师”。

2025年11月，在自然语言处理顶会 EMNLP 2025 上，九天研究院基础研究中心团队深度参与了MoE专题Tutorial，并精选出20篇最具落地潜力的论文，带来一场从“底层架构革新”到“垂直场景爆发”的硬核分享！

混合专家模型（MoE）：

从“粗放激活”到“精准调度”

传统大模型在处理任务时，往往需要“全员出动”，如同召开一场效率低下的全体会议——无论议题是否相关，每个人都必须参与，导致计算资源紧张且响应延迟。但现在MoE通过模仿“分工合作”的原理让大模型学会“智能调度”，专家们各司其职，面对一项复杂问题只需叫上最相关的几位专家来出谋划策。这样既保证了专业性，又避免了资源浪费。下面从模型结构和模型落地应用两方面为大家介绍现有研究。

1. 底层架构革新：提升效率与稳定性

研究聚焦MoE底层优化，通过token粒度、专家结构及资源分配策略，实现参数利用率和计算稳定性的协同提升。

（1）SliceMoE^[1]创新性分割token隐藏向量为独立切片，实现切片级动态路由。动态路由技术的价值在于平滑专家负载分布、提升参数利用率，并增强子token专业化能力，显著缓解高并发场景的延迟峰值问题。

（2）HMoE^[2]与DSMoE^[3]突破传统同构专家限制：HMoE设计异构专家结构，通过差异化容量匹配token复杂度，平衡计算负载并强化专家专业化；DSMoE则结合动态稀疏路由与稀疏性损失项，使token按输入复杂度灵活访问知识子空间，适配资源受限的稠密LLM升级。

图1. HMoE框架图

图2. DSMoE框架图

（3）GuiLoMo^[4]提出层粒度专家数量与LoRA秩分配策略，利用GuidedSelection Vectors自动捕捉层间差异，避免人工调参，在参数高效微调中加速收敛。

图3. GuiLoMo框架图

2. 应用与扩展：垂直场景深度渗透

通过精细化路由机制与异构架构优化，MoE技术已与大量成熟技术融合并在大量垂直场景规模化落地。这一项技术正快速覆盖多模态融合、专业化任务及跨领域挑战。

（1）应用导向：CLIP-MoE^[5]通过Diversified Multiplet Upcycling框架，低成本构建多特征子空间，优化多模态检索的细粒度对齐；RTE-GMoE^[6]以专家图结构实现知识动态交换，解决医疗或金融知识图谱中的信息碎片化问题；MoMoE^[7]提出四模块化审核架构，提供可解释决策机制，平衡社交平台内容审核的效率与合规性。

图4. CLIP-MoE框架图

图5. RTE-GMoE框架图

图6. MoMoE框架图

（2）专家专业化：CoMoE^[8]引入对比学习目标解耦专家功能，适配小样本域适应；MoCE^[9]采用双阶段路由机制，按知识域分区专家组，提升多任务指令遵循能力；CEFT^[10]识别“上下文忠实专家”选择性微调，减少事实性问答的幻觉风险；DES-MoE^[11]通过渐进式微调与动态冻结机制，保障多域LLM部署的知识延续性。

图7. CoMoE框架图

图8. MoCE框架图

图9. CEFT框架图

图10. DES-MoE框架图

（2）其他扩展：Cross-MoE^[12]以轻量时间-文本融合框架提升跨模态鲁棒性；HookMoE^[13]通过可训练Hook模块补偿路由性能损失，实现即插即用的推理加速。

图11. Cross-MoE框架图

图12. HookMoE框架图

超越MoE：

系统性架构突破

更有意思的是，研究者们还不满足于MoE——他们同步在注意力机制、安全防护、高效推理、参数微调等多个维度搞起了“系统级创新”，比如用数学积分优化长文本理解、用轻量适配器挡住对抗攻击、甚至让大模型“边推理边压缩”，首字响应快如闪电！

（1）注意力机制革新：Integral Transformer^[14]通过积分采样注意力去噪，提升长文档建模保真度；Cost-Optimal GQA^[15]解耦注意力头配置，为超长上下文提供最优资源分配方案。

图13. Integral Transformer计算示意图

图14. Cost-Optimal GQA 结果图

（2）安全可控架构：Gamma-Guard^[16]在嵌入层插入轻量残差适配器，通过零缩放门控实现无损鲁棒防护，有效抵御对抗攻击。

图15. Gamma-Guard框架图

图16. FLRC框架图

（3）高效推理优化：FLRC^[17]动态分配低秩压缩比，维持生成质量并减少内存占用；SwiftKV^[18]利用早期层输出预填充KV缓存，加速大提示量应用的首token响应。

图17. SwiftKV框架图

（4）参数高效微调：OHoRA^[19]基于正交分解重构高秩表征空间，抑制任务无关信息；OFTv2^[20]通过输入中心重构与Cayley-Neumann参数化，显著提升训练速度并降低资源开销。

图18. OHoRA框架图

图19. OFTv2框架图

结语

EMNLP 2025 以一场硬核技术盛宴揭示，大模型的未来竞争力不再依赖“规模堆砌”，而在于“架构精巧”。会中提及大模型的两种可发展方向，一是通过SliceMoE、HMoE等技术实现精准调度，驱动效率革命，将资源利用率提升至新高度；二是借助Integral Transformer、Gamma-Guard等系统级创新突破能力边界，在安全、推理与微调维度实现质的飞跃。这些成果印证了“1%的架构巧思远胜10倍盲目扩参”，不仅为医疗、金融、法律、科研教育等垂直场景提供即插即用的落地路径，更为大模型指明了未来的发展方向——以“效率优先、场景为王”为准则，加速技术转化，让大模型在速度、鲁棒性与成本效益上全面进化。

参考文献：

[1] SliceMoE: Routing Embedding Slices Instead of Tokens for Fine-Grained and Balanced Transformer Scaling

[2] HMoE: Heterogeneous Mixture of Experts for Language Modeling

[3] DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs

[4] GuiLoMo: Allocating Experts and Ranks for LoRA-MoE via Bilevel Optimization with GuidedSelection Vectors

[5] CLIP-MoE: Towards Building Mixture of Experts for CLIP with Diversified Multiplet Upcycling

[6] RTE-GMoE: A Model-agnostic Approach for Relation Triplet Extraction via Graph-based Mixture-of-Expert Mutual Learning

[7] MoMoE: Mixture of Moderation Experts Framework for AI-Assisted Online Governance

[8] CoMoE: Contrastive Representation for Mixture-of-Experts in Parameter-Efficient Fine-tuning

[9] Mixture-of-Clustered-Experts: Advancing Expert Specialization and Generalization in Instruction Tuning

[10] Understanding and Leveraging the Expert Specialization of Context Faithfulness in Mixture-of-Experts LLMs

[11] Dynamic Expert Specialization: Towards Catastrophic Forgetting-Free Multi-Domain MoE Adaptation

[12] Cross-MoE: An Efficient Temporal Prediction Framework Integrating Textual Modality

[13] HookMoE: A learnable performance compensation strategy of Mixture-of-Experts for LLM inference acceleration

[14] Integral Transformer: Denoising Attention, Not Too Much Not Too Little

[15] Cost-Optimal Grouped-Query Attention for Long-Context Modeling

[16] Gamma-Guard: Lightweight Residual Adapters for Robust Guardrails in Large Language Models

[17] FLRC: Fine-grained Low-Rank Compressor for Efficient LLM Inference

[18] SwiftKV: Fast Prefill-Optimized Inference with Knowledge-Preserving Model Transformation

[19] An Orthogonal High-Rank Adaptation for Large Language Models

[20] Orthogonal Finetuning Made Scalable

供稿：九天基础研究中心

编辑：秦睿含、张致宁

复审：潘璐、罗丹

【声明】内容源于网络

九天人工智能

中国移动研究院九天人工智能官方公众账号。汇聚九天人工智能最新研发成果和创新产品发布，助力行业发展，引领技术潮流。

内容 410

粉丝 0

九天人工智能中国移动研究院九天人工智能官方公众账号。汇聚九天人工智能最新研发成果和创新产品发布，助力行业发展，引领技术潮流。

总阅读32

粉丝0

内容410