传统大模型在处理任务时,往往需要“全员出动”,如同召开一场效率低下的全体会议——无论议题是否相关,每个人都必须参与,导致计算资源紧张且响应延迟。但现在MoE通过模仿“分工合作”的原理让大模型学会“智能调度”,专家们各司其职,面对一项复杂问题只需叫上最相关的几位专家来出谋划策。这样既保证了专业性,又避免了资源浪费。下面从模型结构和模型落地应用两方面为大家介绍现有研究。
1. 底层架构革新:提升效率与稳定性
研究聚焦MoE底层优化,通过token粒度、专家结构及资源分配策略,实现参数利用率和计算稳定性的协同提升。
(1)SliceMoE[1]创新性分割token隐藏向量为独立切片,实现切片级动态路由。动态路由技术的价值在于平滑专家负载分布、提升参数利用率,并增强子token专业化能力,显著缓解高并发场景的延迟峰值问题。
(2)HMoE[2]与DSMoE[3]突破传统同构专家限制:HMoE设计异构专家结构,通过差异化容量匹配token复杂度,平衡计算负载并强化专家专业化;DSMoE则结合动态稀疏路由与稀疏性损失项,使token按输入复杂度灵活访问知识子空间,适配资源受限的稠密LLM升级。
图1. HMoE框架图
图2. DSMoE框架图
(3)GuiLoMo[4]提出层粒度专家数量与LoRA秩分配策略,利用GuidedSelection Vectors自动捕捉层间差异,避免人工调参,在参数高效微调中加速收敛。
图3. GuiLoMo框架图
2. 应用与扩展:垂直场景深度渗透
通过精细化路由机制与异构架构优化,MoE技术已与大量成熟技术融合并在大量垂直场景规模化落地。这一项技术正快速覆盖多模态融合、专业化任务及跨领域挑战。
(1)应用导向:CLIP-MoE[5]通过Diversified Multiplet Upcycling框架,低成本构建多特征子空间,优化多模态检索的细粒度对齐;RTE-GMoE[6]以专家图结构实现知识动态交换,解决医疗或金融知识图谱中的信息碎片化问题;MoMoE[7]提出四模块化审核架构,提供可解释决策机制,平衡社交平台内容审核的效率与合规性。
图4. CLIP-MoE框架图
图5. RTE-GMoE框架图
图6. MoMoE框架图
(2)专家专业化:CoMoE[8]引入对比学习目标解耦专家功能,适配小样本域适应;MoCE[9]采用双阶段路由机制,按知识域分区专家组,提升多任务指令遵循能力;CEFT[10]识别“上下文忠实专家”选择性微调,减少事实性问答的幻觉风险;DES-MoE[11]通过渐进式微调与动态冻结机制,保障多域LLM部署的知识延续性。
图7. CoMoE框架图
图8. MoCE框架图
图9. CEFT框架图
图10. DES-MoE框架图
(2)其他扩展:Cross-MoE[12]以轻量时间-文本融合框架提升跨模态鲁棒性;HookMoE[13]通过可训练Hook模块补偿路由性能损失,实现即插即用的推理加速。
图11. Cross-MoE框架图
图12. HookMoE框架图
更有意思的是,研究者们还不满足于MoE——他们同步在注意力机制、安全防护、高效推理、参数微调等多个维度搞起了“系统级创新”,比如用数学积分优化长文本理解、用轻量适配器挡住对抗攻击、甚至让大模型“边推理边压缩”,首字响应快如闪电!
(1)注意力机制革新:Integral Transformer[14]通过积分采样注意力去噪,提升长文档建模保真度;Cost-Optimal GQA[15]解耦注意力头配置,为超长上下文提供最优资源分配方案。
图13. Integral Transformer计算示意图
图14. Cost-Optimal GQA 结果图
(2)安全可控架构:Gamma-Guard[16]在嵌入层插入轻量残差适配器,通过零缩放门控实现无损鲁棒防护,有效抵御对抗攻击。
图15. Gamma-Guard框架图
图16. FLRC框架图
(3)高效推理优化:FLRC[17]动态分配低秩压缩比,维持生成质量并减少内存占用;SwiftKV[18]利用早期层输出预填充KV缓存,加速大提示量应用的首token响应。
图17. SwiftKV框架图
(4)参数高效微调:OHoRA[19]基于正交分解重构高秩表征空间,抑制任务无关信息;OFTv2[20]通过输入中心重构与Cayley-Neumann参数化,显著提升训练速度并降低资源开销。
图18. OHoRA框架图
图19. OFTv2框架图
EMNLP 2025 以一场硬核技术盛宴揭示,大模型的未来竞争力不再依赖“规模堆砌”,而在于“架构精巧”。会中提及大模型的两种可发展方向,一是通过SliceMoE、HMoE等技术实现精准调度,驱动效率革命,将资源利用率提升至新高度;二是借助Integral Transformer、Gamma-Guard等系统级创新突破能力边界,在安全、推理与微调维度实现质的飞跃。这些成果印证了“1%的架构巧思远胜10倍盲目扩参”,不仅为医疗、金融、法律、科研教育等垂直场景提供即插即用的落地路径,更为大模型指明了未来的发展方向——以“效率优先、场景为王”为准则,加速技术转化,让大模型在速度、鲁棒性与成本效益上全面进化。
参考文献:
[1] SliceMoE: Routing Embedding Slices Instead of Tokens for Fine-Grained and Balanced Transformer Scaling
[2] HMoE: Heterogeneous Mixture of Experts for Language Modeling
[3] DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs
[4] GuiLoMo: Allocating Experts and Ranks for LoRA-MoE via Bilevel Optimization with GuidedSelection Vectors
[5] CLIP-MoE: Towards Building Mixture of Experts for CLIP with Diversified Multiplet Upcycling
[6] RTE-GMoE: A Model-agnostic Approach for Relation Triplet Extraction via Graph-based Mixture-of-Expert Mutual Learning
[7] MoMoE: Mixture of Moderation Experts Framework for AI-Assisted Online Governance
[8] CoMoE: Contrastive Representation for Mixture-of-Experts in Parameter-Efficient Fine-tuning
[9] Mixture-of-Clustered-Experts: Advancing Expert Specialization and Generalization in Instruction Tuning
[10] Understanding and Leveraging the Expert Specialization of Context Faithfulness in Mixture-of-Experts LLMs
[11] Dynamic Expert Specialization: Towards Catastrophic Forgetting-Free Multi-Domain MoE Adaptation
[12] Cross-MoE: An Efficient Temporal Prediction Framework Integrating Textual Modality
[13] HookMoE: A learnable performance compensation strategy of Mixture-of-Experts for LLM inference acceleration
[14] Integral Transformer: Denoising Attention, Not Too Much Not Too Little
[15] Cost-Optimal Grouped-Query Attention for Long-Context Modeling
[16] Gamma-Guard: Lightweight Residual Adapters for Robust Guardrails in Large Language Models
[17] FLRC: Fine-grained Low-Rank Compressor for Efficient LLM Inference
[18] SwiftKV: Fast Prefill-Optimized Inference with Knowledge-Preserving Model Transformation
[19] An Orthogonal High-Rank Adaptation for Large Language Models
[20] Orthogonal Finetuning Made Scalable
供稿:九天基础研究中心
编辑:秦睿含、张致宁
复审:潘璐、罗丹

