
文心5.1发布:低成本优化模型,创意写作能力逼近Gemini-3.1 Pro
在百度文心内部评测中,文心5.1的创意写作能力接近Gemini-3.1 Pro。
智东西5月9日报道,百度正式推出新一代基础大模型——文心5.1。该模型在参数与成本端实现显著优化:总参数压缩至约文心5.0的1/3,激活参数压缩至约1/2,预训练算力成本仅为业界同规模模型的6%。百度强调其在同参数规模下基础性能领先,但未明确“6%”所对标的具体模型范围及计算口径。
LMArena 5月7日更新的文本生成大模型排行榜显示,文心5.1全球综合排名第14位,在国产模型中登顶搜索能力榜首,但与OpenAI、xAI等头部模型仍存在小幅差距。
▲图源:LMArena官网
横向能力对比:Agentic、知识、推理与指令遵循
文心5.1在Agentic、知识、推理、指令遵循四大维度,与DeepSeek-V4-Pro、Claude-Opus-4.6及Gemini-3.1 Pro展开横向评测。
Agentic能力
在工具调用数学推理任务中,文心5.1得分略低于Gemini-3.1 Pro,位列第二;多轮工具协作交互能力弱于Claude-Opus-4.6,居第二位,整体差距较小。但在深度搜索Agent任务(如电子表格操作)中表现偏弱,仅优于DeepSeek-V4-Pro,大幅落后于Claude-Opus-4.6与Gemini-3.1 Pro。
▲图源:百度文心公众号
知识、推理与指令遵循能力
在高阶学科知识推理(GPQA)和复杂指令遵循(AdvanceIF)测试中,文心5.1仅次于Gemini-3.1 Pro,领先其余两款模型;但在纯数学推理(AIME26)与通用知识问答(MMLU-Pro)中均排名末位,与头部模型差距明显。
▲图源:百度文心公众号
五大场景实测:创作、数理、办公、科普与编程能力验证
实测覆盖创意写作、数学推理、信息整合、电子表格操作、编程五大维度,其中创意写作与电子表格分析采用文心5.1思考模型二次验证。
创意写作
在悬疑故事大纲与科幻微小说任务中,文心5.1思考模型相较快速模型展现出更细腻的情感表达、更强的叙事质感与更稳定的逻辑一致性;虽部分设定尚存合理性瑕疵(如物业记录权限),但整体文学性与结构完整性优于快速模型。
数学推理
面对2025新高考数学概率题(有放回抽球求期望值E(X)),文心5.1给出完整、严谨的解题步骤,采用指示变量法与分布法双重验证,结果准确无误。
信息整合
针对“DeepSeek-V4-Pro vs Claude-Opus-4.6如何选择”这一模糊需求,文心5.1自主拆解任务,输出涵盖强项短板、适用场景、人群匹配、组合建议的结构化对比表格,并指出常见使用误区,信息整合与归纳能力突出。
电子表格操作
在门店销售数据统计任务中,文心5.1可完成业绩整理、均值/中位数计算、高绩效员工筛选及团队分析。经多次指令优化后,思考模型输出更规范直观,能生成可复制的单表结果,满足基础职场数据分析需求。
编程能力
文心5.1思考模型在两项HTML游戏开发任务中均未达成可运行效果:3D格斗游戏存在界面遮挡与交互失效问题;横版跑酷游戏生成代码无法渲染,界面全黑。表明其在复杂逻辑编程、代码调试与工程落地能力上仍存在明显短板。
技术升级:弹性训练与后训练流程革新
文心5.1并非从头训练,而是基于文心5.0子模型矩阵择优复用,核心依托“Once-for-All”弹性训练方法:单次预训练即同步优化海量不同尺寸子模型,形成覆盖多参数规模与计算成本的模型矩阵,上线时按需选取最优子结构,大幅降低迭代成本。
实际效果包括:总参数量压缩至约1/3,激活参数量压缩至约1/2,预训练成本降至业界同规模模型的6%,推理效率同步提升。
▲文心5.0弹性训练示意图(图源:百度文心公众号)
架构升级三大方向
分离式架构:将训练、推理、奖励计算、智能体循环四模块解耦,支持独立部署与弹性扩缩容,提升流水线并行效率。
FP8训推统一:采用统一FP8低精度算子库,优化Rollout Router Replay技术,KL散度下降50%,训练稳定性显著增强。
异构弹性调度:池化闲置CPU资源,用于代码沙箱、验证器等逻辑密集型任务,提升集群资源利用率与训练迭代速度。
后训练流程重构
摒弃传统串行SFT+多阶段强化学习模式,采用四步融合策略:
- 统一SFT:以高质量多领域指令数据进行基础微调,构建通用能力底座;
- 并行专家训练:分领域(代码、推理、智能体等)独立训练专家模型,互不干扰;
- 在线策略蒸馏(OPD):以专家模型为教师,通过token级KL损失将多能力融合至主模型;
- 通用在线强化学习:对高熵任务(如对话、创意写作)单独强化,保障多样性与人类偏好对齐。
▲文心5.1后训练Pipeline示意图(图源:百度文心公众号)
结语:低成本实现性能追赶,能力仍有提升空间
文心5.1的核心价值在于以显著降低的训练成本,实现接近国际头部模型的综合能力——尤其在知识推理、指令遵循与创意写作方面已跻身第一梯队;但在工具调用深度、电子表格操作精度及纯数学推理准确性上,与Claude-Opus-4.6、Gemini-3.1 Pro仍存可量化差距。
实测表明,其在数学解答、生活科普、信息整合等普惠型场景中表现稳健;创意内容偶有套路化倾向,办公自动化能力尚处实用门槛之上、专业级之下,部分任务需精细调优指令。随着国产大模型走向能力差异化与场景分层化,文心5.1所代表的“低成本高性能”路径,为轻量化落地与规模化应用提供了重要实践参考。