大数跨境
0
0

JIUTIAN Research | EMNLP 2025 精选论文导读:MoE如何提质增效

JIUTIAN Research | EMNLP 2025 精选论文导读:MoE如何提质增效 九天人工智能
2025-12-17
2

在AI领域,让模型同时具备强大性能、高效率和低资源占用,如同想要一杯“少糖、好喝、还不胖”的奶茶,是个经典的难题。如今,一种创新的思路正备受关注——混合专家模型(Mixture of Experts, MoE)。它可以被想象成一个“智能决策委员会”,系统面对复杂问题会智能地召唤最擅长的“专家”来处理,而非动员所有专家。这样既节约了算力,又提升了表现,堪称大模型界的“精准调度大师”。


2025年11月,在自然语言处理顶会 EMNLP 2025 上,九天研究院基础研究中心团队深度参与了MoE专题Tutorial,并精选出20篇最具落地潜力的论文,带来一场从“底层架构革新”到“垂直场景爆发”的硬核分享!


1

混合专家模型(MoE):

从“粗放激活”到“精准调度”


传统大模型在处理任务时,往往需要“全员出动”,如同召开一场效率低下的全体会议——无论议题是否相关,每个人都必须参与,导致计算资源紧张且响应延迟。但现在MoE通过模仿“分工合作”的原理让大模型学会“智能调度”,专家们各司其职,面对一项复杂问题只需叫上最相关的几位专家来出谋划策。这样既保证了专业性,又避免了资源浪费。下面从模型结构和模型落地应用两方面为大家介绍现有研究。


1. 底层架构革新:提升效率与稳定性


研究聚焦MoE底层优化,通过token粒度、专家结构及资源分配策略,实现参数利用率和计算稳定性的协同提升。


(1)SliceMoE[1]创新性分割token隐藏向量为独立切片,实现切片级动态路由。动态路由技术的价值在于平滑专家负载分布、提升参数利用率,并增强子token专业化能力,显著缓解高并发场景的延迟峰值问题。


(2)HMoE[2]与DSMoE[3]突破传统同构专家限制:HMoE设计异构专家结构,通过差异化容量匹配token复杂度,平衡计算负载并强化专家专业化;DSMoE则结合动态稀疏路由与稀疏性损失项,使token按输入复杂度灵活访问知识子空间,适配资源受限的稠密LLM升级。


图1. HMoE框架图


图2. DSMoE框架图


(3)GuiLoMo[4]提出层粒度专家数量与LoRA秩分配策略,利用GuidedSelection Vectors自动捕捉层间差异,避免人工调参,在参数高效微调中加速收敛。


图3. GuiLoMo框架图


2. 应用与扩展:垂直场景深度渗透

通过精细化路由机制与异构架构优化,MoE技术已与大量成熟技术融合并在大量垂直场景规模化落地。这一项技术正快速覆盖多模态融合、专业化任务及跨领域挑战。


(1)应用导向:CLIP-MoE[5]通过Diversified Multiplet Upcycling框架,低成本构建多特征子空间,优化多模态检索的细粒度对齐;RTE-GMoE[6]以专家图结构实现知识动态交换,解决医疗或金融知识图谱中的信息碎片化问题;MoMoE[7]提出四模块化审核架构,提供可解释决策机制,平衡社交平台内容审核的效率与合规性。


图4. CLIP-MoE框架图


图5. RTE-GMoE框架图


图6. MoMoE框架图


(2)专家专业化:CoMoE[8]引入对比学习目标解耦专家功能,适配小样本域适应;MoCE[9]采用双阶段路由机制,按知识域分区专家组,提升多任务指令遵循能力;CEFT[10]识别“上下文忠实专家”选择性微调,减少事实性问答的幻觉风险;DES-MoE[11]通过渐进式微调与动态冻结机制,保障多域LLM部署的知识延续性。

图7. CoMoE框架图 


       图8. MoCE框架图


图9. CEFT框架图 


     图10. DES-MoE框架图


(2)其他扩展:Cross-MoE[12]以轻量时间-文本融合框架提升跨模态鲁棒性;HookMoE[13]通过可训练Hook模块补偿路由性能损失,实现即插即用的推理加速。

图11. Cross-MoE框架图


图12. HookMoE框架图


2

超越MoE:

系统性架构突破


更有意思的是,研究者们还不满足于MoE——他们同步在注意力机制、安全防护、高效推理、参数微调等多个维度搞起了“系统级创新”,比如用数学积分优化长文本理解、用轻量适配器挡住对抗攻击、甚至让大模型“边推理边压缩”,首字响应快如闪电!


(1)注意力机制革新:Integral Transformer[14]通过积分采样注意力去噪,提升长文档建模保真度;Cost-Optimal GQA[15]解耦注意力头配置,为超长上下文提供最优资源分配方案。

图13. Integral Transformer计算示意图


图14. Cost-Optimal GQA 结果图


(2)安全可控架构:Gamma-Guard[16]在嵌入层插入轻量残差适配器,通过零缩放门控实现无损鲁棒防护,有效抵御对抗攻击。


图15. Gamma-Guard框架图       


           图16. FLRC框架图


(3)高效推理优化:FLRC[17]动态分配低秩压缩比,维持生成质量并减少内存占用;SwiftKV[18]利用早期层输出预填充KV缓存,加速大提示量应用的首token响应。


图17. SwiftKV框架图


(4)参数高效微调:OHoRA[19]基于正交分解重构高秩表征空间,抑制任务无关信息;OFTv2[20]通过输入中心重构与Cayley-Neumann参数化,显著提升训练速度并降低资源开销。

图18. OHoRA框架图 


图19. OFTv2框架图


3

结语


EMNLP 2025 以一场硬核技术盛宴揭示,大模型的未来竞争力不再依赖“规模堆砌”,而在于“架构精巧”。会中提及大模型的两种可发展方向,一是通过SliceMoE、HMoE等技术实现精准调度,驱动效率革命,将资源利用率提升至新高度;二是借助Integral Transformer、Gamma-Guard等系统级创新突破能力边界,在安全、推理与微调维度实现质的飞跃。这些成果证了“1%的架构巧思远胜10倍盲目扩参”,不仅为医疗、金融、法律科研教育垂直场景提供即插即用的落地路径,更为大模型指明了未来的发展方向——以“效率优先、场景为王”为准则,加速技术转化,让大模型在速度、鲁棒性与成本效益上全面进化。


参考文献:

[1] SliceMoE: Routing Embedding Slices Instead of Tokens for Fine-Grained and Balanced Transformer Scaling

[2] HMoE: Heterogeneous Mixture of Experts for Language Modeling

[3] DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs

[4] GuiLoMo: Allocating Experts and Ranks for LoRA-MoE via Bilevel Optimization with GuidedSelection Vectors

[5] CLIP-MoE: Towards Building Mixture of Experts for CLIP with Diversified Multiplet Upcycling

[6] RTE-GMoE: A Model-agnostic Approach for Relation Triplet Extraction via Graph-based Mixture-of-Expert Mutual Learning

[7] MoMoE: Mixture of Moderation Experts Framework for AI-Assisted Online Governance

[8] CoMoE: Contrastive Representation for Mixture-of-Experts in Parameter-Efficient Fine-tuning

[9] Mixture-of-Clustered-Experts: Advancing Expert Specialization and Generalization in Instruction Tuning

[10] Understanding and Leveraging the Expert Specialization of Context Faithfulness in Mixture-of-Experts LLMs

[11] Dynamic Expert Specialization: Towards Catastrophic Forgetting-Free Multi-Domain MoE Adaptation

[12] Cross-MoE: An Efficient Temporal Prediction Framework Integrating Textual Modality

[13] HookMoE: A learnable performance compensation strategy of Mixture-of-Experts for LLM inference acceleration

[14] Integral Transformer: Denoising Attention, Not Too Much Not Too Little

[15] Cost-Optimal Grouped-Query Attention for Long-Context Modeling

[16] Gamma-Guard: Lightweight Residual Adapters for Robust Guardrails in Large Language Models

[17] FLRC: Fine-grained Low-Rank Compressor for Efficient LLM Inference

[18] SwiftKV: Fast Prefill-Optimized Inference with Knowledge-Preserving Model Transformation

[19] An Orthogonal High-Rank Adaptation for Large Language Models

[20] Orthogonal Finetuning Made Scalable

供稿:九天基础研究中心

编辑:秦睿含、张致宁

复审:潘璐、罗丹

【声明】内容源于网络
0
0
九天人工智能
中国移动研究院九天人工智能官方公众账号。汇聚九天人工智能最新研发成果和创新产品发布,助力行业发展,引领技术潮流。
内容 410
粉丝 0
九天人工智能 中国移动研究院九天人工智能官方公众账号。汇聚九天人工智能最新研发成果和创新产品发布,助力行业发展,引领技术潮流。
总阅读32
粉丝0
内容410