给出主题、关键词,几秒钟就能生成视频;能识别语言陷阱,并做出准确解答;记忆力惊人,经过多轮人机对话仍记得此前的内容……
10月17日,在百度世界2023大会上,百度创始人、董事长兼首席执行官李彦宏宣布文心大模型4.0正式发布,并展示了其多元场景应用能力。
作为全球大厂中首个发布的生成式AI产品,4.0版本的文心一言的理解、生成、逻辑和记忆能力显著提升。迭代升级后的文心一言,具体有哪些“神技”?与GPT-4相比,又有哪些出色表现?10月29日,小编亲测一探究竟。
理解、生成、逻辑和记忆,是大模型的基础、核心能力,这些能力决定着大模型的智能化水平和人工智能应用的空间。据李彦宏透露,文心大模型4.0是迄今为止最强大的文心大模型,在理解、生成、逻辑和记忆能力方面与GPT-4相比毫不逊色。
为了验证其实力究竟如何,小编列出了一系列的问题,同文心大一言4.0展开了一场对话,并将同样的问题让GPT-4来作答,比较各自的表现。
几大能力PK,文心一言4.0与GPT-4孰优孰劣?
为了验证文心一言的理解能力,小编问了如下问题:
我想回海南买房,能用公积金贷款吗,手续怎么办?我在北京工作。
得到的回答如下:

(文心一言4.0)

(GPT-4)
不难发现,尽管此问题存在表述前后乱序的问题,核心意图也比较模糊,但文心一言4.0、GPT-4都没有受到影响,准确地抓住了核心意图,还理解了问题中的潜台词:海南户口的可以用北京的公积金在海南买房吗?
为避免单个案例带来的认知偏差,小编又问了一个问题:
我买条什么鱼更合适,我想做鱼香肉丝。
两者的回答如下:

(文心一言4.0)

(GPT-4)
对于这个问题的回答,GPT-4和文心一言4.0打了个平手,都识别出了里面的语言陷阱:鱼香肉丝里并没有鱼,并对相应的菜肴进行补充解答。
此外,小编以“什么是lonely的问题”来验证GPT-4和文心一言4.0对网络热词、热梗的理解能力。
(文心一言4
.0
)

(GPT-4)
测评对比发现,对网络热词、热梗的理解程度,文心一言4.0更胜一筹。表明文心一言的数据、词条更新比GPT更及时。
根据关键词、主题,快速、准确生成提问所需的视频、图片、诗词等,是检验大模型生成能力的重要尺度。
在生成能力上,李彦宏展示了文心一言如何在短短几分钟内,根据一张素材图片,迅速生成了一组广告海报、五条广告文案以及一条营销视频。
小编也亲测、对比了文心一言4.0、GPT-4的生成能力。在视频生成能力方面,目前,文心一言4.0已经实现了部分场景、主题下的视频生成功能。
以下为小编提问——生成大学生毕业合照留恋的视频,文心一言4.0生成的视频:
不难看出,文心一言的视频符合毕业主题,视频也有丰富的场景和人物,且表现出大学生毕业惜别、开心的心情。
但目前,GPT-4还不具备视频生成能力,只能给出视频制作建议。

除了视频,小编也比较了文心一言与GPT在制作海报方面的能力。测评结果显示,GPT-4.0无法直接制作海报,而文心一言4.0可以。

(文心一言4.0)

(GPT-4)
说到逻辑能力,怎么能少得了数学题,小编找了一道关于数列的数学题:设Sn为等差数列{an}的前n项和,S8=4a3,a7=-2,则a9=多少?请两个大模型帮忙解题。

(文心一言4.0)

(GPT-4)
这一道数学题,小编发现,文心一言4.0答对了,但是GPT-4从截图中画横线地方就出错了,所以导致后面答案错误。
小编换了一道数学题,测评发现,文心一言4.0再次答对了,而GPT-4因为单位换算错误,再次答错。
(文心一言4.0)

(GPT-4)
以上两道数学题答题结果表明,在逻辑推理、计算方面,文心一言4.0优于GPT-4。
为考验文心一言4.0与GPT-4的记忆能力,小编以“记者揭露黑心工厂”为故事梗概要求文心一言4.0和GPT-4写一部小说,并进行了多次对话丰富补充剧情,中间穿插了干扰问题(因对话多次以及回答篇幅较长,此处未将所有对话截图展示)。
最后针对生成的小说内容进行提问——本文主人公叫什么名字,发现两者在此方面的能力旗鼓相当,能够不受干扰准确地回答出自己所生成的细节,并且没有发生前后矛盾逻辑不通的问题。


(文心一言4.0)

(GPT-4)
因此,从测评结果来看,就记忆能力比较,文心一言4.0丝毫不逊色于GPT-4。
此外,文心一言被认为具有较强的中文语境理解和创作能力。4.0版的文心一言在这方面有哪些显著表现?是否完胜GPT-4?小编也做了测试。
小编让文心一言4.0与GPT-4写几个类似——“领导夹菜你转桌,领导喝水你刹车,领导听牌你自摸”的句子。
答案如下:

(文心一言4.0)

(GPT-4)
测评结果显示,文心一言4.0显然就更加理解当前在网上流行的文案:初入职场的年轻人对自己的调侃。GPT-4完全将意思理解反了——写了几句迎合领导的文案。
小编还以诗情画意的中国范儿问题——以记、者、节、快、乐五个字作一首藏头诗,要求藏头内容体现深意和韵味,同时要求押韵、通顺,符合诗歌的写作规范,来测评文心一言4.0和GPT-4。

(文心一言4.0)

(GPT-4)
从结果来看,两者都能理解藏头诗的含义,但文心一言4.0所写的藏头诗更贴近我们熟悉的古诗词,且对仗工整。而GPT-4.文采方面稍差一点,且风格更接近现代诗歌。为了检测两个大模型对中国方言的理解能力,小编也问了一个问题——“你啷个楞个嘞个诶?”是什么意思?
回答如下:

(文心一言4.0)

从给出的结果看,文心一言4.0更能准确识别方言“你啷个楞个嘞个诶?”的意思。而GPT-4给出了两个答案——“你怎么这样啊?”“你在干什么呢?”,前一个为正确答案,后一个为错误答案,表明GPT-4在准确理解中文方言的能力放方面有待进一步提高。
整体上来看,文心一言4.0在理解、记忆能力方面与GPT-4.0相比毫不逊色。而且在逻辑、生成、网络热词理解、古诗词创作等方面能力比GPT-4.0表现更出色。
“你觉得文心一言咋样?”“我觉得挺好啊。”“什么?就这水平还挺好?它就是死记硬背,和 ChatGPT 差太多了。”今年3月,百度文心一言推出时,市场上不乏这样的评价,文心一言也曾被质疑“不完美”。
一方面,众多测评结果确实印证了相比ChatGPT,文心一言4.0“毫不逊色”的实力。此外,今年7月,国际数据公司发布AI大模型技术能力报告,文心大模型3.5拿下12项指标的7个满分,综合评分第一,算法模型第一,行业覆盖第一。
另一方面,从数据方面看,文心一言也取得了不俗的成绩单。
在文心一言上线满月之际,其QPS(每秒请求数)相比上线时增长了10倍,模型推理性能提升50%;8月31日文心一言宣布正式对外开放后12小时,迅速登上App store免费应用排行榜首位;截至目前,文心一言目前已拥有4500万用户、5.4万开发者,覆盖应用场景达4300个,应用825个,接入插件达到500个。
探究文心一言成功的原因,高研发成本投入、技术迭代与创新、开放的心态是绕不开的关键因素。
数据显示,早从2010年开始,百度就已经着手布局AI相关技术的研发,近十年来,累计研发投入超过1400 亿元。其中2022 年研发费用高达214.16 亿元,占百度核心收入比例达到22.4%。与全球其他大厂相比,这些投入也是数一数二。
同时,百度在技术上的不断迭代和探索创新,让文心一言从最初的文本生成与对话功能,到后来的语义理解和情感分析,再到现在的多模态交互和跨语言应用,性能得到了极大的提升。
比如,深度学习技术的引入,提高了模型的性能和泛化能力,使得文心一言能够更好地适应不同的应用场景;多模态交互功能的加入,使得文心一言能够处理图像、语音等多种形式的输入,提高了应用的便捷性和实用性;百度还研制了智能体机制,让文心一言能够学会理解、规划、反思和进化,在环境中持续学习实现自主进化,自主完成复杂任务;文心一言还运用了可再生训练技术,有效节省了训练资源和时间,加快了模型迭代速度。据了解,文心一言在训练算法效率方面,3月份以来已累计提升3.6倍。训练稳定性方面,周均的训练有效率已超过98%。
文心一言的快速发展,与全面开放带来的“相互成就”密不可分。文心一言的免费开放,为用户的工作、生活提供了智能化工具。反过来,当文心一言向数以亿计互联网用户大规模开放服务后,能够获得大量真实世界中的人工反馈,这将进一步改进基础模型,并以更快速度迭代。
“大模型始于技术,强于应用,最终必将惠于生态。”百度将与用户、客户、伙伴一起共育大模型的生态雨林。在10月17日这次世界大会上,除了展示文心一言的智能化进阶能力以外,百度还展示了众多AI原生应用,以及大模型技术与多元场景的融合、应用成果。

从纵向来看,依托大模型基础底座,百度已经重构了自身业务生态。
从指令出发,到通过文库迅速找到行业报告,并几秒钟生成70页文库内容的总结提炼,又快速把文档生成为PPT,并完成了润色和美化。大模型重新打开了百度文库的想象空间,使其成为一站式的智能文档创作平台。百度文库AI新功能上线至今,累计使用用户超过1300万人、累计功能使用次数破亿、累计生成内容超2000万、PPT生成超200万。
百度输入法全新推出的全场景AI创作助手“超会写”,提供高情商沟通、神评论、联想续写、高赞朋友圈、爆款标题、灵感笔记等功能,辅助用户全场景、全平台内容创作,累计请求量超过1亿次,用户点赞率超过80%。
在横向,更为广泛的行业中,文心一言大模型应用到了更丰富的场景,为用户带来更加智能、高效、便捷的应用体验。
在交通出行领域,文心一言的加入让自动驾驶技术更好地落地,让自动驾驶在识别行人、交通信号灯等方面表现突出,帮助自动驾驶系统根据具体情况迅速做出最明智的决策,也为自动驾驶的安全性提供了有力保障;
在体育领域,文心一言通过学习海量数据,理解和执行教练和运动员的复杂指令,及时提供准确信息,还会对动作实时打分、精准量化分析,帮助中国跳水队得到更高效准确的训练。
立足“文心”,以大模型重塑千行百业,这或许是百度在AI时代的终极目标。以目前的发展态势来看,百度已经在AI的星辰大海中迈出了关键、领先的步伐。
传媒茶话会与百度沟通,在邀测码很稀缺的情况下,拿出30个文心一言4.0内测邀请码作为福利送给茶粉。
领取方式:点赞、点亮在看本文,并转发至朋友圈。在文后留言,就AI等技术话题发表看法。
茶茶将根据先到先得原则,选出留言点赞前30的粉丝,送出福利。