

告别Token浪费,大模型迎来“减脂增肌”
作者 | 云鹏
编辑 | 漠影
当前,“龙虾”类AI智能体在全球持续升温,但企业在享受效率提升的同时,也面临显著挑战:除数据安全外,高Token消耗带来的成本压力尤为突出——简单一句“你好”,就可能触发数十美元的推理开销。
对个人用户尚可灵活应对,而企业级AI应用则必须直面高Token消耗引发的成本与延迟问题。OpenClaw等Agent本质是AI的“手脚”,其核心能力仍依赖底层大模型。因此,解决成本难题的关键,在于提升模型本身的效率。
企业在Agent底座选择上长期陷入两难:追求高智能往往意味着成倍增加Token消耗和推理延迟;选择低成本方案,则常以牺牲能力为代价。对企业而言,任何无效Token消耗都等于真金白银的流失。模型效率,已成为决定企业智能化水平的核心要素。
近期,国内AI团队YuanLab.ai发布并开源多模态基础大模型Yuan3.0 Ultra,在国内外引发广泛关注。
发布当日,团队同步公开完整模型权重、训练代码与技术报告:
开源地址
GitHub项目:https://github.com/Yuan-lab-LLM/Yuan3.0-Ultra
论文链接:https://arxiv.org/abs/2601.14327
作为当前全球仅有的三个万亿级开源多模态大模型之一,Yuan3.0 Ultra的核心突破在于LAEP(基于学习的自适应专家剪枝)技术:在不破坏功能结构前提下精准剪除冗余参数,实现参数规模减少33%,预训练速度提升49%,单次推理时间缩短14%,同时准确率提升16%。
该模型已在检索增强生成(RAG)、多模态文档理解、表格数据分析、内容摘要与工具调用等典型企业场景中展现突出能力。
在YuanLab.ai看来,效率不是成本优化的“可选项”,而是模型能力的固有组成部分。其目标是让企业以更少算力开销,产生更大智能价值。Yuan3.0 Ultra验证了旗舰级智能可兼具高效性、经济性与可控性,为企业Agent规模化落地提供了关键底座支撑。
三项关键技术创新
1. 自适应专家裁剪(LAEP):让模型“精兵简政”
2026年初发布的Yuan3.0 Flash已通过RIRM、RAPO等技术验证“高智能≠高Token消耗”。Yuan3.0 Ultra进一步升级,通过LAEP、LFA、RIRM等全链路创新,实现“无需无节制堆算力即可获得更强智能”。
MoE架构本意是“专业分工、高效协作”,但在工程实践中却普遍存在专家负载严重失衡问题:训练稳定阶段,最高与最低专家负载差异可达近500倍——少数专家承担绝大部分计算任务,大量低贡献专家长期处于“摸鱼”状态,造成参数虚高、算力浪费与落地成本居高不下。
▲预训练过程中各层专家token分布演化趋势(左)及稳定阶段负载分布(右)
行业主流方案(如Mixtral、DeepSeek-V3)依赖辅助损失函数约束专家利用率,难以兼顾精度与均衡。YuanLab.ai提出的LAEP算法,基于预训练中自然形成的专家功能专一化规律,动态识别并剔除低贡献冗余专家,进行结构自适应裁剪与重排,实现“多劳多得、按劳分配”,将算力资源倾斜至高价值专家。
该机制类比人脑神经连接的优化过程:保留高效信息通路,削弱低效连接,在强化专业化能力的同时提升算力利用效率。实测结果显示:模型参数从1515B优化至1010B(↓33.3%),预训练算力效率↑49%,单次推理仅激活68.8B参数,性能稳居头部阵营。
▲Yuan3.0 Ultra采用LAEP+专家重排机制有效提升训练效率
2. 局部过滤注意力(LFA):强化长上下文语义建模
企业实际场景中,模型需处理图文混排财报、多页技术文档、跨文档知识检索等复杂任务,对长上下文语义关联能力要求极高。Yuan3.0 Ultra引入局部过滤注意力机制(LFA),精准筛选与强化关键语义关联,有效过滤无效注意力干扰,显著提升模型对长文本、复杂结构信息的理解能力。
在图文混排文档解析、跨文档知识检索、多步骤Agent推理等任务中,模型均保持高准确率。
3. 反思抑制与感知优化(RIRM+RAPO):终结“过度思考”
Agent连续任务链中,大模型常陷入“过度反思”——答案已正确,却反复推敲,导致Token消耗激增、响应延迟拉长,成为企业级AI落地的成本黑洞。
Yuan3.0 Ultra通过两大技术根治此问题:
- 反思抑制奖励机制(RIRM):在万亿参数规模强化学习中,对反思次数施加精细化奖励约束,引导模型在获得可靠答案后主动终止无效反思,同时保留深度推理能力。
- 反思感知自适应策略优化算法(RAPO):针对万亿级MoE模型强化学习训练不稳定、效率低的行业痛点,完成算法架构深度优化,大幅提升训练稳定性与效率。
总体来看,LAEP决定“用多少有效参数去学”,LFA决定“如何精准捕捉有效信息”,RAPO保障“如何稳定高效地学习”,RIRM明确“推理到什么程度该停”。这一系列底层创新,让万亿级旗舰模型真正实现“企业用得起、用得好、能落地”。
五大企业级能力验证
依托上述技术创新,Yuan3.0 Ultra从设计之初即聚焦企业真实场景,是驱动复杂智能体(Agent)的“核心引擎”。
1. 检索增强生成(RAG)能力领先
在ChatRAG、DocMatix等评测中表现优异:ChatRAG涵盖长文本、短文本与结构化检索及维基百科检索,Yuan3.0 Ultra平均准确率达68.2%,10项任务中9项位列第一。
2. 多模态复杂表格理解能力突出
在MMTab评测(覆盖表格问答、事实核查、长文本表格处理)中,Yuan3.0 Ultra以62.3%平均准确率超越Claude Opus 4.6与Gemini 3.1 Pro。
3. 高质量总结生成能力强
在SummEval文本摘要评测(综合评估词汇重叠、语义相似度与事实一致性)中,Yuan3.0 Ultra平均精度达62.8%,展现出优异的历史信息压缩与多源语义整合能力。
4. 工具调用能力均衡稳健
在BFCL V3工具调用评测中,Yuan3.0 Ultra平均得分67.8%,涵盖静态函数选择、动态实时执行、多轮上下文维护、相关性检测与无关调用拒绝等维度,体现真实业务场景下的强自动化执行能力。
5. 数据库查询生成能力优异
在Text-to-SQL领域,Yuan3.0 Ultra在Spider 1.0及BIRD评测中表现突出,可高效将业务问题转化为SQL语句,并结合结果完成分析与总结,有力支撑企业数据驱动决策。
综合测试表明,Yuan3.0 Ultra是真正具备实战能力的企业级大模型。
结语:提升单位算力的真实智能密度
“龙虾”的热潮印证了AI的巨大潜力,也凸显出其在企业落地时面临的现实瓶颈:高成本、高延迟、难部署。
从Flash到Ultra,YuanLab.ai始终聚焦企业核心痛点,其技术演进目标清晰而坚定:提升单位算力所产生的真实智能密度,推动大模型能力切实转化为企业可落地、可负担、可稳定复用的业务价值。
Yuan3.0 Ultra标志着大模型正从“能力展示”迈向“规模化落地”,为破解MoE架构预训练效率低、推理成本高的行业难题,提供了全新技术路径与实践范式。

