大数跨境

大模型“想太多干太少”?国内AI团队祭出多个技术大招,破解成本困局

大模型“想太多干太少”?国内AI团队祭出多个技术大招,破解成本困局 智东西
2026-03-18
2
导读:告别Token老虎,给大模型来了个“减脂增肌”。

告别Token浪费,大模型迎来“减脂增肌”

作者 | 云鹏
编辑 | 漠影

当前,“龙虾”类AI智能体在全球持续升温,但企业在享受效率提升的同时,也面临显著挑战:除数据安全外,高Token消耗带来的成本压力尤为突出——简单一句“你好”,就可能触发数十美元的推理开销。

对个人用户尚可灵活应对,而企业级AI应用则必须直面高Token消耗引发的成本与延迟问题。OpenClaw等Agent本质是AI的“手脚”,其核心能力仍依赖底层大模型。因此,解决成本难题的关键,在于提升模型本身的效率。

企业在Agent底座选择上长期陷入两难:追求高智能往往意味着成倍增加Token消耗和推理延迟;选择低成本方案,则常以牺牲能力为代价。对企业而言,任何无效Token消耗都等于真金白银的流失。模型效率,已成为决定企业智能化水平的核心要素。

近期,国内AI团队YuanLab.ai发布并开源多模态基础大模型Yuan3.0 Ultra,在国内外引发广泛关注。

发布当日,团队同步公开完整模型权重、训练代码与技术报告

开源地址

GitHub项目:https://github.com/Yuan-lab-LLM/Yuan3.0-Ultra

论文链接:https://arxiv.org/abs/2601.14327

作为当前全球仅有的三个万亿级开源多模态大模型之一,Yuan3.0 Ultra的核心突破在于LAEP(基于学习的自适应专家剪枝)技术:在不破坏功能结构前提下精准剪除冗余参数,实现参数规模减少33%,预训练速度提升49%,单次推理时间缩短14%,同时准确率提升16%。

该模型已在检索增强生成(RAG)、多模态文档理解、表格数据分析、内容摘要与工具调用等典型企业场景中展现突出能力。

在YuanLab.ai看来,效率不是成本优化的“可选项”,而是模型能力的固有组成部分。其目标是让企业以更少算力开销,产生更大智能价值。Yuan3.0 Ultra验证了旗舰级智能可兼具高效性、经济性与可控性,为企业Agent规模化落地提供了关键底座支撑。

三项关键技术创新

1. 自适应专家裁剪(LAEP):让模型“精兵简政”

2026年初发布的Yuan3.0 Flash已通过RIRM、RAPO等技术验证“高智能≠高Token消耗”。Yuan3.0 Ultra进一步升级,通过LAEP、LFA、RIRM等全链路创新,实现“无需无节制堆算力即可获得更强智能”。

MoE架构本意是“专业分工、高效协作”,但在工程实践中却普遍存在专家负载严重失衡问题:训练稳定阶段,最高与最低专家负载差异可达近500倍——少数专家承担绝大部分计算任务,大量低贡献专家长期处于“摸鱼”状态,造成参数虚高、算力浪费与落地成本居高不下。

▲预训练过程中各层专家token分布演化趋势(左)及稳定阶段负载分布(右)

行业主流方案(如Mixtral、DeepSeek-V3)依赖辅助损失函数约束专家利用率,难以兼顾精度与均衡。YuanLab.ai提出的LAEP算法,基于预训练中自然形成的专家功能专一化规律,动态识别并剔除低贡献冗余专家,进行结构自适应裁剪与重排,实现“多劳多得、按劳分配”,将算力资源倾斜至高价值专家。

该机制类比人脑神经连接的优化过程:保留高效信息通路,削弱低效连接,在强化专业化能力的同时提升算力利用效率。实测结果显示:模型参数从1515B优化至1010B(↓33.3%),预训练算力效率↑49%,单次推理仅激活68.8B参数,性能稳居头部阵营。

▲Yuan3.0 Ultra采用LAEP+专家重排机制有效提升训练效率

2. 局部过滤注意力(LFA):强化长上下文语义建模

企业实际场景中,模型需处理图文混排财报、多页技术文档、跨文档知识检索等复杂任务,对长上下文语义关联能力要求极高。Yuan3.0 Ultra引入局部过滤注意力机制(LFA),精准筛选与强化关键语义关联,有效过滤无效注意力干扰,显著提升模型对长文本、复杂结构信息的理解能力。

在图文混排文档解析、跨文档知识检索、多步骤Agent推理等任务中,模型均保持高准确率。

3. 反思抑制与感知优化(RIRM+RAPO):终结“过度思考”

Agent连续任务链中,大模型常陷入“过度反思”——答案已正确,却反复推敲,导致Token消耗激增、响应延迟拉长,成为企业级AI落地的成本黑洞。

Yuan3.0 Ultra通过两大技术根治此问题:

  • 反思抑制奖励机制(RIRM):在万亿参数规模强化学习中,对反思次数施加精细化奖励约束,引导模型在获得可靠答案后主动终止无效反思,同时保留深度推理能力。
  • 反思感知自适应策略优化算法(RAPO):针对万亿级MoE模型强化学习训练不稳定、效率低的行业痛点,完成算法架构深度优化,大幅提升训练稳定性与效率。

总体来看,LAEP决定“用多少有效参数去学”,LFA决定“如何精准捕捉有效信息”,RAPO保障“如何稳定高效地学习”,RIRM明确“推理到什么程度该停”。这一系列底层创新,让万亿级旗舰模型真正实现“企业用得起、用得好、能落地”。

五大企业级能力验证

依托上述技术创新,Yuan3.0 Ultra从设计之初即聚焦企业真实场景,是驱动复杂智能体(Agent)的“核心引擎”。

1. 检索增强生成(RAG)能力领先

在ChatRAG、DocMatix等评测中表现优异:ChatRAG涵盖长文本、短文本与结构化检索及维基百科检索,Yuan3.0 Ultra平均准确率达68.2%,10项任务中9项位列第一。

2. 多模态复杂表格理解能力突出

在MMTab评测(覆盖表格问答、事实核查、长文本表格处理)中,Yuan3.0 Ultra以62.3%平均准确率超越Claude Opus 4.6与Gemini 3.1 Pro。

3. 高质量总结生成能力强

在SummEval文本摘要评测(综合评估词汇重叠、语义相似度与事实一致性)中,Yuan3.0 Ultra平均精度达62.8%,展现出优异的历史信息压缩与多源语义整合能力。

4. 工具调用能力均衡稳健

在BFCL V3工具调用评测中,Yuan3.0 Ultra平均得分67.8%,涵盖静态函数选择、动态实时执行、多轮上下文维护、相关性检测与无关调用拒绝等维度,体现真实业务场景下的强自动化执行能力。

5. 数据库查询生成能力优异

在Text-to-SQL领域,Yuan3.0 Ultra在Spider 1.0及BIRD评测中表现突出,可高效将业务问题转化为SQL语句,并结合结果完成分析与总结,有力支撑企业数据驱动决策。

综合测试表明,Yuan3.0 Ultra是真正具备实战能力的企业级大模型。

结语:提升单位算力的真实智能密度

“龙虾”的热潮印证了AI的巨大潜力,也凸显出其在企业落地时面临的现实瓶颈:高成本、高延迟、难部署。

从Flash到Ultra,YuanLab.ai始终聚焦企业核心痛点,其技术演进目标清晰而坚定:提升单位算力所产生的真实智能密度,推动大模型能力切实转化为企业可落地、可负担、可稳定复用的业务价值。

Yuan3.0 Ultra标志着大模型正从“能力展示”迈向“规模化落地”,为破解MoE架构预训练效率低、推理成本高的行业难题,提供了全新技术路径与实践范式。

【声明】内容源于网络
0
0
智东西
各类跨境出海行业相关资讯
内容 11041
粉丝 0
智东西 各类跨境出海行业相关资讯
总阅读91.2k
粉丝0
内容11.0k