>

百度最强模型来了！五大场景深度实测，搜索能力突出

>

百度最强模型来了！五大场景深度实测，搜索能力突出

百度最强模型来了！五大场景深度实测，搜索能力突出

智东西

2026-05-09

7

导读：在百度文心内部评测中，文心5.1的创意写作能力接近Gemini-3.1 Pro。

文心5.1发布：低成本优化模型，创意写作能力逼近Gemini-3.1 Pro

在百度文心内部评测中，文心5.1的创意写作能力接近Gemini-3.1 Pro。

编译 | 刘煜
编辑 | 陈骏达

智东西5月9日报道，百度正式推出新一代基础大模型——文心5.1。该模型在参数与成本端实现显著优化：总参数压缩至约文心5.0的1/3，激活参数压缩至约1/2，预训练算力成本仅为业界同规模模型的6%。百度强调其在同参数规模下基础性能领先，但未明确“6%”所对标的具体模型范围及计算口径。

LMArena 5月7日更新的文本生成大模型排行榜显示，文心5.1全球综合排名第14位，在国产模型中登顶搜索能力榜首，但与OpenAI、xAI等头部模型仍存在小幅差距。

▲图源：LMArena官网

横向能力对比：Agentic、知识、推理与指令遵循

文心5.1在Agentic、知识、推理、指令遵循四大维度，与DeepSeek-V4-Pro、Claude-Opus-4.6及Gemini-3.1 Pro展开横向评测。

Agentic能力

在工具调用数学推理任务中，文心5.1得分略低于Gemini-3.1 Pro，位列第二；多轮工具协作交互能力弱于Claude-Opus-4.6，居第二位，整体差距较小。但在深度搜索Agent任务（如电子表格操作）中表现偏弱，仅优于DeepSeek-V4-Pro，大幅落后于Claude-Opus-4.6与Gemini-3.1 Pro。

▲图源：百度文心公众号

知识、推理与指令遵循能力

在高阶学科知识推理（GPQA）和复杂指令遵循（AdvanceIF）测试中，文心5.1仅次于Gemini-3.1 Pro，领先其余两款模型；但在纯数学推理（AIME26）与通用知识问答（MMLU-Pro）中均排名末位，与头部模型差距明显。

▲图源：百度文心公众号

五大场景实测：创作、数理、办公、科普与编程能力验证

实测覆盖创意写作、数学推理、信息整合、电子表格操作、编程五大维度，其中创意写作与电子表格分析采用文心5.1思考模型二次验证。

创意写作

在悬疑故事大纲与科幻微小说任务中，文心5.1思考模型相较快速模型展现出更细腻的情感表达、更强的叙事质感与更稳定的逻辑一致性；虽部分设定尚存合理性瑕疵（如物业记录权限），但整体文学性与结构完整性优于快速模型。

数学推理

面对2025新高考数学概率题（有放回抽球求期望值E(X)），文心5.1给出完整、严谨的解题步骤，采用指示变量法与分布法双重验证，结果准确无误。

信息整合

针对“DeepSeek-V4-Pro vs Claude-Opus-4.6如何选择”这一模糊需求，文心5.1自主拆解任务，输出涵盖强项短板、适用场景、人群匹配、组合建议的结构化对比表格，并指出常见使用误区，信息整合与归纳能力突出。

电子表格操作

在门店销售数据统计任务中，文心5.1可完成业绩整理、均值/中位数计算、高绩效员工筛选及团队分析。经多次指令优化后，思考模型输出更规范直观，能生成可复制的单表结果，满足基础职场数据分析需求。

编程能力

文心5.1思考模型在两项HTML游戏开发任务中均未达成可运行效果：3D格斗游戏存在界面遮挡与交互失效问题；横版跑酷游戏生成代码无法渲染，界面全黑。表明其在复杂逻辑编程、代码调试与工程落地能力上仍存在明显短板。

技术升级：弹性训练与后训练流程革新

文心5.1并非从头训练，而是基于文心5.0子模型矩阵择优复用，核心依托“Once-for-All”弹性训练方法：单次预训练即同步优化海量不同尺寸子模型，形成覆盖多参数规模与计算成本的模型矩阵，上线时按需选取最优子结构，大幅降低迭代成本。

实际效果包括：总参数量压缩至约1/3，激活参数量压缩至约1/2，预训练成本降至业界同规模模型的6%，推理效率同步提升。

▲文心5.0弹性训练示意图（图源：百度文心公众号）

架构升级三大方向

分离式架构：将训练、推理、奖励计算、智能体循环四模块解耦，支持独立部署与弹性扩缩容，提升流水线并行效率。

FP8训推统一：采用统一FP8低精度算子库，优化Rollout Router Replay技术，KL散度下降50%，训练稳定性显著增强。

异构弹性调度：池化闲置CPU资源，用于代码沙箱、验证器等逻辑密集型任务，提升集群资源利用率与训练迭代速度。

后训练流程重构

摒弃传统串行SFT+多阶段强化学习模式，采用四步融合策略：

统一SFT：以高质量多领域指令数据进行基础微调，构建通用能力底座；
并行专家训练：分领域（代码、推理、智能体等）独立训练专家模型，互不干扰；
在线策略蒸馏（OPD）：以专家模型为教师，通过token级KL损失将多能力融合至主模型；
通用在线强化学习：对高熵任务（如对话、创意写作）单独强化，保障多样性与人类偏好对齐。

▲文心5.1后训练Pipeline示意图（图源：百度文心公众号）

结语：低成本实现性能追赶，能力仍有提升空间

文心5.1的核心价值在于以显著降低的训练成本，实现接近国际头部模型的综合能力——尤其在知识推理、指令遵循与创意写作方面已跻身第一梯队；但在工具调用深度、电子表格操作精度及纯数学推理准确性上，与Claude-Opus-4.6、Gemini-3.1 Pro仍存可量化差距。

实测表明，其在数学解答、生活科普、信息整合等普惠型场景中表现稳健；创意内容偶有套路化倾向，办公自动化能力尚处实用门槛之上、专业级之下，部分任务需精细调优指令。随着国产大模型走向能力差异化与场景分层化，文心5.1所代表的“低成本高性能”路径，为轻量化落地与规模化应用提供了重要实践参考。

【声明】内容源于网络

0

0

智东西

各类跨境出海行业相关资讯

内容 11508

粉丝 0

智东西各类跨境出海行业相关资讯

总阅读116.5k

粉丝0

内容11.5k