大数跨境

百度最强模型来了!五大场景深度实测,搜索能力突出

百度最强模型来了!五大场景深度实测,搜索能力突出 智东西
2026-05-09
7
导读:在百度文心内部评测中,文心5.1的创意写作能力接近Gemini-3.1 Pro。

文心5.1发布:低成本优化模型,创意写作能力逼近Gemini-3.1 Pro

在百度文心内部评测中,文心5.1的创意写作能力接近Gemini-3.1 Pro。
编译 | 刘煜
编辑 | 陈骏达
智东西5月9日报道,百度正式推出新一代基础大模型——文心5.1。该模型在参数与成本端实现显著优化:总参数压缩至约文心5.0的1/3,激活参数压缩至约1/2,预训练算力成本仅为业界同规模模型的6%。百度强调其在同参数规模下基础性能领先,但未明确“6%”所对标的具体模型范围及计算口径。
LMArena 5月7日更新的文本生成大模型排行榜显示,文心5.1全球综合排名第14位,在国产模型中登顶搜索能力榜首,但与OpenAI、xAI等头部模型仍存在小幅差距。

▲图源:LMArena官网

横向能力对比:Agentic、知识、推理与指令遵循

文心5.1在Agentic、知识、推理、指令遵循四大维度,与DeepSeek-V4-Pro、Claude-Opus-4.6及Gemini-3.1 Pro展开横向评测。

Agentic能力

在工具调用数学推理任务中,文心5.1得分略低于Gemini-3.1 Pro,位列第二;多轮工具协作交互能力弱于Claude-Opus-4.6,居第二位,整体差距较小。但在深度搜索Agent任务(如电子表格操作)中表现偏弱,仅优于DeepSeek-V4-Pro,大幅落后于Claude-Opus-4.6与Gemini-3.1 Pro。

▲图源:百度文心公众号

知识、推理与指令遵循能力

在高阶学科知识推理(GPQA)和复杂指令遵循(AdvanceIF)测试中,文心5.1仅次于Gemini-3.1 Pro,领先其余两款模型;但在纯数学推理(AIME26)与通用知识问答(MMLU-Pro)中均排名末位,与头部模型差距明显。

▲图源:百度文心公众号

五大场景实测:创作、数理、办公、科普与编程能力验证

实测覆盖创意写作、数学推理、信息整合、电子表格操作、编程五大维度,其中创意写作与电子表格分析采用文心5.1思考模型二次验证。

创意写作

在悬疑故事大纲与科幻微小说任务中,文心5.1思考模型相较快速模型展现出更细腻的情感表达、更强的叙事质感与更稳定的逻辑一致性;虽部分设定尚存合理性瑕疵(如物业记录权限),但整体文学性与结构完整性优于快速模型。

数学推理

面对2025新高考数学概率题(有放回抽球求期望值E(X)),文心5.1给出完整、严谨的解题步骤,采用指示变量法与分布法双重验证,结果准确无误。

信息整合

针对“DeepSeek-V4-Pro vs Claude-Opus-4.6如何选择”这一模糊需求,文心5.1自主拆解任务,输出涵盖强项短板、适用场景、人群匹配、组合建议的结构化对比表格,并指出常见使用误区,信息整合与归纳能力突出。

电子表格操作

在门店销售数据统计任务中,文心5.1可完成业绩整理、均值/中位数计算、高绩效员工筛选及团队分析。经多次指令优化后,思考模型输出更规范直观,能生成可复制的单表结果,满足基础职场数据分析需求。

编程能力

文心5.1思考模型在两项HTML游戏开发任务中均未达成可运行效果:3D格斗游戏存在界面遮挡与交互失效问题;横版跑酷游戏生成代码无法渲染,界面全黑。表明其在复杂逻辑编程、代码调试与工程落地能力上仍存在明显短板。

技术升级:弹性训练与后训练流程革新

文心5.1并非从头训练,而是基于文心5.0子模型矩阵择优复用,核心依托“Once-for-All”弹性训练方法:单次预训练即同步优化海量不同尺寸子模型,形成覆盖多参数规模与计算成本的模型矩阵,上线时按需选取最优子结构,大幅降低迭代成本。
实际效果包括:总参数量压缩至约1/3,激活参数量压缩至约1/2,预训练成本降至业界同规模模型的6%,推理效率同步提升。

▲文心5.0弹性训练示意图(图源:百度文心公众号)

架构升级三大方向

分离式架构:将训练、推理、奖励计算、智能体循环四模块解耦,支持独立部署与弹性扩缩容,提升流水线并行效率。
FP8训推统一:采用统一FP8低精度算子库,优化Rollout Router Replay技术,KL散度下降50%,训练稳定性显著增强。
异构弹性调度:池化闲置CPU资源,用于代码沙箱、验证器等逻辑密集型任务,提升集群资源利用率与训练迭代速度。

后训练流程重构

摒弃传统串行SFT+多阶段强化学习模式,采用四步融合策略:
  • 统一SFT:以高质量多领域指令数据进行基础微调,构建通用能力底座;
  • 并行专家训练:分领域(代码、推理、智能体等)独立训练专家模型,互不干扰;
  • 在线策略蒸馏(OPD):以专家模型为教师,通过token级KL损失将多能力融合至主模型;
  • 通用在线强化学习:对高熵任务(如对话、创意写作)单独强化,保障多样性与人类偏好对齐。

▲文心5.1后训练Pipeline示意图(图源:百度文心公众号)

结语:低成本实现性能追赶,能力仍有提升空间

文心5.1的核心价值在于以显著降低的训练成本,实现接近国际头部模型的综合能力——尤其在知识推理、指令遵循与创意写作方面已跻身第一梯队;但在工具调用深度、电子表格操作精度及纯数学推理准确性上,与Claude-Opus-4.6、Gemini-3.1 Pro仍存可量化差距。
实测表明,其在数学解答、生活科普、信息整合等普惠型场景中表现稳健;创意内容偶有套路化倾向,办公自动化能力尚处实用门槛之上、专业级之下,部分任务需精细调优指令。随着国产大模型走向能力差异化与场景分层化,文心5.1所代表的“低成本高性能”路径,为轻量化落地与规模化应用提供了重要实践参考。

【声明】内容源于网络
0
0
智东西
各类跨境出海行业相关资讯
内容 11508
粉丝 0
智东西 各类跨境出海行业相关资讯
总阅读116.5k
粉丝0
内容11.5k