2025年11月13日,百度在世界大会上正式发布其原生全模态大模型文心5.0。这不仅是一次常规的版本迭代,更是一次底层技术路线的革新。
凭借高达2.4万亿的参数规模和业界领先的“原生全模态”架构,文心5.0旨在重新定义AI与多媒体信息交互的方式,向世界展示了其强大的理解、逻辑、记忆和生成能力。
何为“原生全模态”?技术架构的范式转移
要理解文心5.0的突破性,首先要厘清“原生全模态”与传统多模态模型的区别。过去,许多模型采用的是“后期融合”策略,即分别训练处理文本、图像等不同模态的独立模型,最后再将它们的特征进行拼接或融合。这种方式如同将几个专家召集起来开会,虽然能解决问题,但沟通效率和理解深度天然存在瓶颈。
百度首席技术官王海峰对此解释道:“文心大模型5.0的技术路线是采用统一的自回归架构进行原生全模态建模,理解与生成一体化。”这意味着从训练的最初阶段,文心5.0就将文本、图像、音频、视频等多种数据置于同一框架下进行学习。模型不再是“先看图,再读书”,而是在一个统一的认知空间内,同步建立跨模态的内在关联与直觉,如同人类看到闪电便会联想到雷声。

为了支撑这一庞大的构想,文心5.0依托于飞桨深度学习框架,采用了当前前沿的超稀疏混合专家(MoE)架构。其总参数规模超过2.4万亿,但通过稀疏激活机制,每次推理时激活的参数比例低于3%。这如同一个拥有无数专家的智库,面对不同任务只唤醒最相关的专家小组,从而在保持模型强大能力的同时,极大地提升了推理效率,实现了性能与成本的精妙平衡。
性能飞跃:基准测试与实测表现
强大的技术架构最终要通过性能来验证。据百度官方数据,文心5.0在超过40项权威基准的综合评测中,其语言与多模态理解能力已能与Gemini-2.5-Pro、GPT-5-High等国际顶尖模型持平,而在图像与视频生成方面,其能力也达到了垂直领域专业模型的水平。就在发布前几天,其预览版ERNIE-5.0-Preview-1022已在LMArena大模型竞技场中,位列文本任务全球并列第二、中国第一。

百度创始人李彦宏在会上强调:“智能本身是最大的应用,而技术迭代速度是唯一护城河。”文心5.0的实测表现正是这一理念的体现。
在量子位的深度实测中,文心5.0展现了令人惊叹的细致理解力:
- 视频深度解析
在分析一段跳水比赛视频时,它不仅能准确描述选手的动作、捕捉到难度系数等信息,更能洞察到选手起跳时“皱着眉、咬着牙”的微表情,甚至连视频中的慢动作回放起到的“补刀”效果都分析得头头是道。 - 跨模态情景推理
面对“你怎么穿着品如的衣服啊?”这一经典电视剧片段,它能结合台词和画面,准确判断出视频中的角色并非品如,并通过调用搜索工具,根据角色性格特征推断出穿衣者大概率是艾莉,展现了强大的智能体(Agent)规划与工具调用能力。 - 复杂场景理解与生成
无论是解读包含谐音梗的复杂图片,还是根据一段分辨率不高的街边小摊视频计算商品总价,文心5.0都表现出色。它还能根据用户上传的猫咪照片和文字指令,生成一张猫咪“打扮成高雅人士”的新图片,展示了文图混合输入的生成能力。
这些案例充分证明,文心5.0不仅能“看懂”,更能“看透”,它擅长整合多模态信息,理解情感氛围与叙事意图,进行复杂的综合推理。
理性审视:第三方的褒奖与待解难题
任何一个大版本的迭代都应置于聚光灯下接受全方位的审视。在收获官方和部分用户好评的同时,一些第三方的独立评测也为我们提供了更全面的视角。
有评测指出,文心5.0相较于之前的版本是“肉眼可见的巨大进步”,一扫文心4.5“赶工上架”的粗糙感,输出内容干净了许多,指令遵循和基础计算能力稳定,足以跻身“国产第一梯队”。
然而,评测也点出了其尚待完善之处:
- 幻觉偏高
在部分测试中,模型存在一定程度的幻觉,例如在找不到答案时仍会“自信”地声称找到了,或在解题时违反规则。 - 洞察力不足
在需要归纳规律、发现问题本质的“洞察力”测试中,文心5.0有时会倾向于使用暴力穷举而非更巧妙的逻辑推理,未能充分发挥其庞大知识库的优势。 - 多轮对话能力
在需要长程记忆和持续追踪上下文的多轮对话测试中,模型较早出现遗忘规则、忘记上文的问题,稳定性有待加强。 - 偶发性问题
评测中还提及了小概率出现的“死循环”现象,这在近期发布的新模型中已较为罕见。
结论
文心5.0的发布,无疑是百度乃至中国AI发展历程中的一个重要里程碑。其“原生全模态”的技术路线选择,展现了百度在前沿技术上的雄心与魄力。无论是惊艳的实测表现,还是第三方评测中肯定的巨大进步,都证明了其强大的实力。目前,文心5.0 Preview已上线文心App和百度千帆大模型平台,向公众和开发者开放体验。
当然,正如评测所揭示的,通往通用人工智能的道路依然漫长,即便是最前沿的模型也仍有其局限性。文心5.0在展现肌肉的同时,也为后续的优化指明了方向。这场由技术迭代驱动的智能竞赛,正变得愈发精彩。

