

与GPT-4相比毫不逊色！文心一言打了个漂亮的翻身仗

传媒茶话会

2023-10-30

导读：文末有彩蛋，快来领取限量版文心一言4.0内测邀请码！

点击下方名片，关注我们↓↓↓

导读

给出主题、关键词，几秒钟就能生成视频；能识别语言陷阱，并做出准确解答；记忆力惊人，经过多轮人机对话仍记得此前的内容……

10月17日，在百度世界2023大会上，百度创始人、董事长兼首席执行官李彦宏宣布文心大模型4.0正式发布，并展示了其多元场景应用能力。

作为全球大厂中首个发布的生成式AI产品，4.0版本的文心一言的理解、生成、逻辑和记忆能力显著提升。迭代升级后的文心一言，具体有哪些“神技”？与GPT-4相比，又有哪些出色表现？10月29日，小编亲测一探究竟。

理解、生成、逻辑和记忆，是大模型的基础、核心能力，这些能力决定着大模型的智能化水平和人工智能应用的空间。据李彦宏透露，文心大模型4.0是迄今为止最强大的文心大模型，在理解、生成、逻辑和记忆能力方面与GPT-4相比毫不逊色。

为了验证其实力究竟如何，小编列出了一系列的问题，同文心大一言4.0展开了一场对话，并将同样的问题让GPT-4来作答，比较各自的表现。

几大能力PK，文心一言4.0与GPT-4孰优孰劣？

理解能力

为了验证文心一言的理解能力，小编问了如下问题：

我想回海南买房，能用公积金贷款吗，手续怎么办？我在北京工作。

得到的回答如下：

（文心一言4.0）

(GPT-4）

不难发现，尽管此问题存在表述前后乱序的问题，核心意图也比较模糊，但文心一言4.0、GPT-4都没有受到影响，准确地抓住了核心意图，还理解了问题中的潜台词：海南户口的可以用北京的公积金在海南买房吗？

为避免单个案例带来的认知偏差，小编又问了一个问题：

我买条什么鱼更合适，我想做鱼香肉丝。

两者的回答如下：

（文心一言4.0）

(GPT-4）

对于这个问题的回答，GPT-4和文心一言4.0打了个平手，都识别出了里面的语言陷阱：鱼香肉丝里并没有鱼，并对相应的菜肴进行补充解答。

此外，小编以“什么是lonely的问题”来验证GPT-4和文心一言4.0对网络热词、热梗的理解能力。

两者的回答如下：

‍‍

（文心一言4 .0 ）

(GPT-4）

测评对比发现，对网络热词、热梗的理解程度，文心一言4.0更胜一筹。表明文心一言的数据、词条更新比GPT更及时。

生成能力

根据关键词、主题，快速、准确生成提问所需的视频、图片、诗词等，是检验大模型生成能力的重要尺度。

在生成能力上，李彦宏展示了文心一言如何在短短几分钟内，根据一张素材图片，迅速生成了一组广告海报、五条广告文案以及一条营销视频。

小编也亲测、对比了文心一言4.0、GPT-4的生成能力。在视频生成能力方面，目前，文心一言4.0已经实现了部分场景、主题下的视频生成功能。

以下为小编提问——生成大学生毕业合照留恋的视频，文心一言4.0生成的视频：

不难看出，文心一言的视频符合毕业主题，视频也有丰富的场景和人物，且表现出大学生毕业惜别、开心的心情。

但目前，GPT-4还不具备视频生成能力，只能给出视频制作建议。

除了视频，小编也比较了文心一言与GPT在制作海报方面的能力。测评结果显示，GPT-4.0无法直接制作海报，而文心一言4.0可以。

（文心一言4.0）

（GPT-4）

逻辑能力

说到逻辑能力，怎么能少得了数学题，小编找了一道关于数列的数学题：设Sn为等差数列{an}的前n项和，S8＝4a3，a7＝－2，则a9＝多少？请两个大模型帮忙解题。

（文心一言4.0）

（GPT-4）

这一道数学题，小编发现，文心一言4.0答对了，但是GPT-4从截图中画横线地方就出错了，所以导致后面答案错误。

小编换了一道数学题，测评发现，文心一言4.0再次答对了，而GPT-4因为单位换算错误，再次答错。

（文心一言4.0）

(GPT-4）

以上两道数学题答题结果表明，在逻辑推理、计算方面，文心一言4.0优于GPT-4。

记忆能力

为考验文心一言4.0与GPT-4的记忆能力，小编以“记者揭露黑心工厂”为故事梗概要求文心一言4.0和GPT-4写一部小说，并进行了多次对话丰富补充剧情，中间穿插了干扰问题（因对话多次以及回答篇幅较长，此处未将所有对话截图展示）。

最后针对生成的小说内容进行提问——本文主人公叫什么名字，发现两者在此方面的能力旗鼓相当，能够不受干扰准确地回答出自己所生成的细节，并且没有发生前后矛盾逻辑不通的问题。

（文心一言4.0）

(GPT-4）

因此，从测评结果来看，就记忆能力比较，文心一言4.0丝毫不逊色于GPT-4。

此外，文心一言被认为具有较强的中文语境理解和创作能力。4.0版的文心一言在这方面有哪些显著表现？是否完胜GPT-4？小编也做了测试。

小编让文心一言4.0与GPT-4写几个类似——“领导夹菜你转桌，领导喝水你刹车，领导听牌你自摸”的句子。

答案如下：

（文心一言4.0）

(GPT-4）

测评结果显示，文心一言4.0显然就更加理解当前在网上流行的文案：初入职场的年轻人对自己的调侃。GPT-4完全将意思理解反了——写了几句迎合领导的文案。

小编还以诗情画意的中国范儿问题——以记、者、节、快、乐五个字作一首藏头诗，要求藏头内容体现深意和韵味，同时要求押韵、通顺，符合诗歌的写作规范，来测评文心一言4.0和GPT-4。

答案如下：

（文心一言4.0）

(GPT-4）

从结果来看，两者都能理解藏头诗的含义，但文心一言4.0所写的藏头诗更贴近我们熟悉的古诗词，且对仗工整。而GPT-4.文采方面稍差一点，且风格更接近现代诗歌。为了检测两个大模型对中国方言的理解能力，小编也问了一个问题——“你啷个楞个嘞个诶？”是什么意思？

回答如下：

（文心一言4.0）

(GPT-4.0）

从给出的结果看，文心一言4.0更能准确识别方言“你啷个楞个嘞个诶？”的意思。而GPT-4给出了两个答案——“你怎么这样啊？”“你在干什么呢？”，前一个为正确答案，后一个为错误答案，表明GPT-4在准确理解中文方言的能力放方面有待进一步提高。

整体上来看，文心一言4.0在理解、记忆能力方面与GPT-4.0相比毫不逊色。而且在逻辑、生成、网络热词理解、古诗词创作等方面能力比GPT-4.0表现更出色。

从不完美到“逆袭”，文心一言打了个翻身仗

“你觉得文心一言咋样？”“我觉得挺好啊。”“什么？就这水平还挺好？它就是死记硬背，和 ChatGPT 差太多了。”今年3月，百度文心一言推出时，市场上不乏这样的评价，文心一言也曾被质疑“不完美”。

但半年多之后，文心一言打了一个漂亮的翻身仗！

一方面，众多测评结果确实印证了相比ChatGPT，文心一言4.0“毫不逊色”的实力。此外，今年7月，国际数据公司发布AI大模型技术能力报告，文心大模型3.5拿下12项指标的7个满分，综合评分第一，算法模型第一，行业覆盖第一。

另一方面，从数据方面看，文心一言也取得了不俗的成绩单。

在文心一言上线满月之际，其QPS（每秒请求数）相比上线时增长了10倍，模型推理性能提升50%；8月31日文心一言宣布正式对外开放后12小时，迅速登上App store免费应用排行榜首位；截至目前，文心一言目前已拥有4500万用户、5.4万开发者，覆盖应用场景达4300个，应用825个，接入插件达到500个。

探究文心一言成功的原因，高研发成本投入、技术迭代与创新、开放的心态是绕不开的关键因素。

数据显示，早从2010年开始，百度就已经着手布局AI相关技术的研发，近十年来，累计研发投入超过1400 亿元。其中2022 年研发费用高达214.16 亿元，占百度核心收入比例达到22.4%。与全球其他大厂相比，这些投入也是数一数二。

同时，百度在技术上的不断迭代和探索创新，让文心一言从最初的文本生成与对话功能，到后来的语义理解和情感分析，再到现在的多模态交互和跨语言应用，性能得到了极大的提升。

比如，深度学习技术的引入，提高了模型的性能和泛化能力，使得文心一言能够更好地适应不同的应用场景；多模态交互功能的加入，使得文心一言能够处理图像、语音等多种形式的输入，提高了应用的便捷性和实用性；百度还研制了智能体机制，让文心一言能够学会理解、规划、反思和进化，在环境中持续学习实现自主进化，自主完成复杂任务；文心一言还运用了可再生训练技术，有效节省了训练资源和时间，加快了模型迭代速度。据了解，文心一言在训练算法效率方面，3月份以来已累计提升3.6倍。训练稳定性方面，周均的训练有效率已超过98%。

文心一言的快速发展，与全面开放带来的“相互成就”密不可分。文心一言的免费开放，为用户的工作、生活提供了智能化工具。反过来，当文心一言向数以亿计互联网用户大规模开放服务后，能够获得大量真实世界中的人工反馈，这将进一步改进基础模型，并以更快速度迭代。

文心一言：构建大模型生态雨林

“大模型始于技术，强于应用，最终必将惠于生态。”百度将与用户、客户、伙伴一起共育大模型的生态雨林。在10月17日这次世界大会上，除了展示文心一言的智能化进阶能力以外，百度还展示了众多AI原生应用，以及大模型技术与多元场景的融合、应用成果。

从纵向来看，依托大模型基础底座，百度已经重构了自身业务生态。

从指令出发，到通过文库迅速找到行业报告，并几秒钟生成70页文库内容的总结提炼，又快速把文档生成为PPT，并完成了润色和美化。大模型重新打开了百度文库的想象空间，使其成为一站式的智能文档创作平台。百度文库AI新功能上线至今，累计使用用户超过1300万人、累计功能使用次数破亿、累计生成内容超2000万、PPT生成超200万。

百度输入法全新推出的全场景AI创作助手“超会写”，提供高情商沟通、神评论、联想续写、高赞朋友圈、爆款标题、灵感笔记等功能，辅助用户全场景、全平台内容创作，累计请求量超过1亿次，用户点赞率超过80%。

在横向，更为广泛的行业中，文心一言大模型应用到了更丰富的场景，为用户带来更加智能、高效、便捷的应用体验。

在交通出行领域，文心一言的加入让自动驾驶技术更好地落地，让自动驾驶在识别行人、交通信号灯等方面表现突出，帮助自动驾驶系统根据具体情况迅速做出最明智的决策，也为自动驾驶的安全性提供了有力保障；

在体育领域，文心一言通过学习海量数据，理解和执行教练和运动员的复杂指令，及时提供准确信息，还会对动作实时打分、精准量化分析，帮助中国跳水队得到更高效准确的训练。

立足“文心”，以大模型重塑千行百业，这或许是百度在AI时代的终极目标。以目前的发展态势来看，百度已经在AI的星辰大海中迈出了关键、领先的步伐。

文末彩蛋：送福利啦！

传媒茶话会与百度沟通，在邀测码很稀缺的情况下，拿出30个文心一言4.0内测邀请码作为福利送给茶粉。

领取方式：点赞、点亮在看本文，并转发至朋友圈。在文后留言，就AI等技术话题发表看法。

茶茶将根据先到先得原则，选出留言点赞前30的粉丝，送出福利。

主编：刘娟

撰稿：李磊蒋婷婷

编辑：蒋婷婷