大数跨境
0
0

国产大模型哪家强?我们测评了6款产品

国产大模型哪家强?我们测评了6款产品 传媒茶话会
2023-09-08
1
导读:AI大模型比人工使用搜索引擎检索更加便利。
点击下方名片,关注我们↓↓↓

导读


8月31日,11家AI大模型产品通过《生成式人工智能服务管理暂行办法》备案,百度文心一言、百川大模型等率先上线。


此前,传媒茶话会曾测试ChatGPT和百度文心一言,此次国产大模型扎堆上线,我们再次体验了能够直接注册使用的6款国产通用大模型产品,并请部分媒体人分享了相关产品的使用感受。



国产大模型全面PK



本次传媒茶话会测评的通用大模型包括百度“文心一言”、阿里巴巴“通义千问”、科大讯飞“讯飞星火”、百川智能“百川大模型”、商汤科技“商量SenseChat”、智谱华章“智谱清言”,体验包括智能问答、文稿生成、文生图、语音识别等功能。

由于我们仅测评了6个大模型产品及其中的部分功能,测评结果与多种因素有关,还有很多值得挖掘的使用功能,测评结果仅供各位参考。

(一)文本PK,均具备一定程度语义理解能力

文本是媒体人工作中使用最多的一类媒介,此次从问答、采访提纲生成、新闻稿生成、数学计算等维度重点测试6个国产通用大模型。

1.问答功能见水平

笔者以“全国现有多少家县级融媒体中心?”为题提问6个大模型,文心一言、讯飞星火、智谱清言都给出了正确回答。

其中亮点是智谱清言引用了准确的数据统计时间;百川大模型虽然引用了准确的信息来源,但时间有误。此外,通义千问明显信息陈旧,SenseChat无法作答。

↑智谱清言生成结果


↑文心一言生成结果

↑讯飞星火生成结果

↑百川大模型生成结果

↑通义千问生成结果

笔者还以“瓜娃子是什么意思”提问6个大模型,大多数明确指出是方言,并解释了这一词汇的意义。其中百川大模型提出需要结合具体语境判断使用,Sense Chat提出该词语有贬义色彩需谨慎使用。但是,通义千问错认为瓜娃子是网络用语。

↑文心一言生成结果

↑讯飞星火生成结果

↑百川大模型生成结果

↑SenseChat生成结果

↑智谱清言生成结果

↑通义千问生成结果


2.新闻稿写作暴露问题

笔者要求6个大模型写一篇新闻稿,除个别产品外,其他基本都能按要求生成,但质量参差不齐。

值得注意的是,新闻稿生成结果暴露出部分通用大模型存在一定问题。

首先,信息不真实,几天前发生的事件,新闻稿中却出现了“2021年”字样;其次,数据有误,目前瑞幸咖啡全国门店已超万家,新闻稿中却提到“数千家”;再次,拼凑痕迹明显,生编硬套;最后,不符合新闻稿体例,新闻稿末尾出现企业介绍。

↑文心一言生成结果

↑通义千问生成结果

↑百川大模型生成结果

↑讯飞星火生成结果

↑SenseChat生成结果

↑智谱清言生成结果


3.采访提纲质量有差距

笔者分别向每个大模型提出“以测评国产大模型为主题,写一份采访提纲”的要求,其中通义千问直接列出了采访问题,百川大模型、讯飞星火进一步将采访问题、采访对象归类。但是,文心一言错误理解要求,写成了策划方案。

↑通义千问生成结果

↑百川大模型生成结果,原文如下:


向上滑动阅览


一、采访目的
本次采访旨在深入了解国产大模型的研发背景、技术特点、应用场景以及市场表现,从而全面评价国产大模型的性能和价值。

二、采访对象
1. 大模型研发团队负责人或相关专家
2. 大模型用户(如企业、个人)
3. 大模型相关的投资人或观察者

三、采访问题
1. 您能简要介绍一下贵公司的大模型吗?它是如何诞生的?
2. 您的模型在哪些方面表现出色?例如,在自然语言处理、计算机视觉、语音识别等方面的能力如何?
3. 您的模型在实际应用中有哪些案例?这些案例能否反映出您的模型在特定场景中的优势?
4. 您的模型是否针对特定的行业进行了优化?如果是,请举例说明。
5. 您的模型在训练和部署的过程中有哪些挑战?您是如何解决这些问题的?
6. 您的模型在安全性和隐私保护方面采取了哪些措施?
7. 您的模型是否有开放API或者SDK供第三方开发者使用?如果有,请问如何获取和使用?
8. 您的模型在未来有哪些规划和发展目标?
9. 对于其他正在研发大模型的企业,您有什么建议或者看法?
10. 您认为目前国产大模型在国际市场上处于什么地位?有哪些竞争优势和劣势?

四、采访方式
1. 面对面访谈
2. 电话访谈
3. 视频访谈
4. 在线问卷调查

五、采访时间与地点
1. 具体时间可由受访者自行安排
2. 地点可以选择在受访者的办公室或者其他方便的地方

六、采访记录与整理
1. 对所有访谈内容进行详细记录
2. 对关键信息进行梳理和总结
3. 根据访谈结果撰写深度报道

↑讯飞星火生成结果,原文如下:


向上滑动阅览


一、大模型的发展历程
1. 请简述国产大模型的发展历程,从最初的研发到现在的发展状况。
2. 在发展过程中,有哪些关键的技术突破或者里程碑事件?
3. 随着技术的不断发展,国产大模型在性能上有哪些提升?

二、大模型的技术特点
1. 请详细解释国产大模型的主要技术特点。
2. 这些技术特点是如何影响大模型的性能的?
3. 与其他类型的模型相比,国产大模型有哪些优势和劣势?

三、大模型的应用领域
1. 请列举一些国产大模型在实际应用中的典型案例。
2. 在这些案例中,大模型展现了哪些出色的性能?
3. 国产大模型在哪些领域还有待提升或者拓展?

四、大模型的未来发展
1. 请预测一下国产大模型未来的发展趋势。
2. 在未来的发展中,可能会遇到哪些挑战和机遇?
3. 对于国产大模型的研发者来说,他们应该如何应对这些挑战和抓住机遇?

五、对国产大模型的评价
1. 您如何评价国产大模型目前的发展状况?
2. 您认为国产大模型在未来的市场中会占据怎样的地位?
3. 对于希望使用国产大模型的用户来说,您有什么建议?

↑智谱清言生成结果,原文如下:


向上滑动阅览


一、国产大模型的发展背景与意义
1.请简要介绍一下国产大模型的发展背景和历程。
2. 国产大模型对于我国人工智能产业的发展具有哪些意义和价值?
3. 在国际竞争中,国产大模型如何助力我国人工智能产业实现“弯道超车”?

二、国产大模型的技术特点与优势
1. 请详细介绍一下国产大模型的技术原理和核心技术。
2. 国产大模型在模型规模、参数量、性能等方面有哪些优势?
3. 国产大模型相较于国际先进水平,有哪些创新点和突破?

三、国产大模型的应用场景与案例
1.请简要介绍一下国产大模型在各个领域的应用场景。
2. 能否分享一些国产大模型的成功应用案例?
3. 在实际应用中,国产大模型相较于其他模型有哪些优势?


四、国产大模型的发展挑战与未来展望
1. 请谈谈国产大模型在发展过程中面临的主要挑战和问题。
2. 针对这些挑战,我国政府和企业应如何推动国产大模型的健康发展?
3. 您对国产大模型未来的发展趋势和前景有何展望?

↑文心一言生成结果,原文如下:


向上滑动阅览


采访提纲:国产大模型的测评
一、引言
介绍国产大模型的发展背景
解释大模型的基本概念和特点
阐述本次测评的目的和主题

二、被测评的国产大模型介绍
百度文心大模型
阿里云大模型
华为云大模型
腾讯云大模型

三、测评方法和标准测评
内容分类:包括语言理解、语言生成、图像理解、文本生成等方面
测评方法:基于公开数据集和第三方评测报告,进行客观测评和主观体验
测评标准:准确性、效率、稳定性、扩展性、创新性等方面

四、测评结果和分析
语言理解测试结果和分析
语言生成测试结果和分析
图像理解测试结果和分析
文本生成测试结果和分析
总测评结果和分析

五、与国际主流大模型的比较
与谷歌 TensorFlow、Facebook PyTorch 等比较
在全球大模型榜单上的表现和对比
在应用场景和行业领域上的对比和优劣分析

六、被测评大模型的应用前景和局限性
应用前景:在各个行业和领域的应用和发展趋势
局限性:目前存在的主要问题和挑战,以及未来的改进方向

七、结论和建议
对国产大模型的总体评价和优劣分析对未来大模型发展的建议和展望对企业和开发者使用大模型的建议和注意事项

八、结束语
感谢被采访者和参与评测的团队对国产大模型发展的前景充满期待和信心

希望本次评测能对大家有所启示和帮助

↑SenseChat生成结果,原文如下:


向上滑动阅览


采访提纲

  1. 开场白欢迎各位观众,今天我们将探讨国产大模型的发展和应用。

2. 嘉宾介绍请嘉宾简单自我介绍,包括其专业背景和经验。

3. 国产大模型的背景与现状什么是国产大模型?它与国外的大模型有什么不同?国产大模型的发展历程是怎样的?有哪些关键事件或里程碑?

4. 技术特点与优势国产大模型的技术特点是什么?它相比国外的大模型有哪些优势和劣势?国产大模型在哪些方面具有独特性?

5. 应用领域与案例国产大模型主要应用于哪些领域?有没有具体的案例可以分享?

6. 与国外大模型的比较国产大模型与OpenAI的GPT-4、谷歌的Bard等国外大模型相比,有哪些异同?

7. 未来趋势与挑战国产大模型的未来发展趋势是什么?面临哪些挑战?

8. 社会责任与伦理考量国产大模型的使用涉及到哪些社会责任和伦理问题?如何平衡科技进步与社会责任?

9. 观众提问环节现场观众或线上观众可以提出他们关心的问题,由嘉宾进行解答。

10. 结语
感谢嘉宾参与本次访谈,并邀请观众持续关注国产大模型的发展动态。


4.文案创作颇有创意

笔者要求大模型为新闻客户端起个名字并撰写文案,从结果来看文心一言、百川大模型、SenseChat生成结果有一定“创意”。

↑百川大模型生成结果

↑文心一言生成结果

↑SenseChat生成结果

↑讯飞星火生成结果

↑智谱清言生成结果

↑通义千问生成结果

5.中国文化理解水平高低立现

今年3月,传媒茶话会用藏头诗考验ChatGPT和文心一言,在对中文、中国文化理解的测试中,ChatGPT没能理解问题。

此次测评6个基于中文语料的国产大模型,测试结果却同样有差异。其中,文心一言、百川大模型、SenseChat都可圈可点,尤为值得一提的是智谱清言主动提出可提供姓名进行针对性创作。相较之下讯飞星火“摆烂”,通义千问直接无法回答。

↑文心一言生成结果

↑百川大模型生成结果

↑SenseChat生成结果

↑智谱清言生成结果

↑讯飞星火生成结果

笔者进一步要求将姓名写进藏头诗,文心一言、百川大模型颇具文学水平。少数大模型完成度不足。

↑文心一言生成结果

↑百川大模型生成结果

↑智谱清言生成结果

↑SenseChat生成结果

↑讯飞星火生成结果

↑通义千问生成结果


6.文学创作能力参差不齐

6个大模型的创作结果如下,文心一言、百川大模型续写情节跌宕起伏,表现可圈可点;谱清言续写剧情较合乎逻辑的前因、后果。当然,也有大模型生成的内容都是“口水话”,套路感比较强。仅通义千问无法生成结果。

↑文心一言生成结果


↑讯飞星火生成结果

↑百川大模型生成结果

↑智谱清言生成结果,原文如下:


向上滑动阅览


在《流浪地球 3》中,故事的背景依然围绕着地球在宇宙中漂泊的设定展开。在前两部电影中,我们已经见证了人类通过团结一致,成功地使地球脱离了太阳系并朝着新的家园进发。


《流浪地球 3》的剧情将围绕着人类在这次迁徙过程中遇到的种种挑战展开。其中最大的挑战便是如何在新的星系中寻找适合人类居住的星球。为了解决这个问题,地球联合政府组建了一支庞大的探险队,由各个国家的顶尖科学家和宇航员组成。这支探险队将乘坐先进的宇宙飞船,在未知的星际空间中寻找适合人类居住的星球。


在前往新家园的途中,地球上的生活也在发生着巨大的变化。由于地球脱离了太阳系,地球上的气候和生态环境发生了巨变,人类的生存面临着前所未有的挑战。为了适应新的环境,人们开始对地球上的生态系统进行大规模的改造。例如,通过基因技术改造动植物,使它们能够在极端环境中生存;通过建立地下城市和封闭生态系统,解决人们的居住和食物问题。


在地球探险队寻找新家园的过程中,他们还将遇到其他星际文明。这些文明有的可能对人类友好,有的可能心怀敌意。在这场星际外交中,地球联合政府和探险队将努力争取与其他文明的友谊与合作,共同应对宇宙中的各种挑战。最终,在经历了一系列艰苦的探险和斗争后,人类找到了一个适合自己生存的新家园。这个星球环境优美,资源丰富,有着适合人类生活的气候和生态系统。地球上的人们为这个新家园命名为“希望星”。


《流浪地球 3》以人类在“希望星”上开始新生活的场景画下圆满的句号。这部电影展示了人类在面临挑战时所展现出的勇敢、智慧和团结精神,为人类在宇宙中的未来发展描绘了一个充满希望的画卷。


↑SenseChat生成结果

小结

从文本模态的测评结果来看,6个大模型基本都能够在较短时间内生成结果,不同产品生成内容的差异性不大。

这与封面新闻记者欧阳宏宇的体验感受比较一致。“由于目前AI大模型还是围绕搜索场景构建的服务,从这一角度看,AI大模型还是比人工通过搜索引擎检索要更加便利。”

大众报业集团融媒体中心副主任、大众日报融媒技术工作室主任汤代禄肯定说,国产大模型在文稿辅助创作、信息辅助梳理等方面对媒体人较有价值。“具体来说,记者可能主要应用文稿辅助,用大模型启发创作思路;信息梳理功能能够帮助记者梳理热点、批量信息。”

值得注意的是,目前大模型的问答质量各有优劣,测评结果也在一定程度上暴露出大模型存在“生编硬套”“摆烂”等问题。

欧阳宏宇还指出大模型存在信息茧房的问题,即对于特定关键词以不同表述提出的问题,无法实现针对性的回复。“此外,部分大模型生成的内容较为生硬,仍然必须人工修改才能使用,甚至部分产品生成的内容会有文不对题的情况。

(二)图像生成拉开差距

经过实际体验只有文心一言和讯飞星火,以及阿里巴巴旗下通义万相能够基于文字指令生成图片,但是不同产品识别能力有差异,其他大模型则无法根据文字要求生成图片。

↑文心一言生成结果
↑讯飞星火生成结果

值得一提的是,大模型对文本理解能力也有所差异,如果指令中没有明确“画”这一要求,只是输入“小男孩与小狗一起玩耍”,讯飞星火仍然生成了匹配文字的图片,而文心一言生成了符合要求的文字描述作画过程。

↑讯飞星火生成结果
↑文心一言生成结果

此外,笔者还体验了阿里巴巴旗下文生图产品“通义万相”,它不仅可以根据文字要求生成图片,还具有相似图像生成、图像风格迁移功能。并且,该产品还支持设定图片风格、图像比例。以下图片分别为默认风格、水彩风格、3D卡通风格、二次元风格。

↑通义万相生成结果


小结

对于大模型图像生成功能,访谈嘉宾普遍表示“比较实用”。

欧阳宏宇表示对文心一言的图片生成功能印象深刻。“文生图功能非常实用,尤其是在新闻稿件需要一些概念图时,可以通过该方式生成一些有特色的图片,同时能避免一些版权风险。

汤代禄也提到,大模型的配图插画创作已经在大众日报日常报道中常态化使用了。“以文稿为主体内容,用大模型创作配图,这种方式已经成为图文稿件、视频稿件的重要素材来源。

(三)音频生成能力差距较大

笔者要求6个大模型朗读“我要去奶奶家吃饭”,其中,文心一言不仅准确识别、生成正确的语音,还支持生成方言音频。此外,讯飞星火支持语音输入,能够准确识别讲话内容,并生成对应内容。其他基于文本的大模型产品不能实现这一要求。

↑文心一言生成结果

↑讯飞星火生成结果

综上所述,基于笔者主观感受,在新闻稿撰写、采访提纲撰写等文本能力方面,6个大模型各有千秋,比人工使用搜索引擎更加便利,但也暴露出一定问题,还需进一步完善;在图像方面,文心一言、讯飞星火、通义万相表现可圈可点;音频方面,文心一言优势较大,表现突出。


结语


山东齐鲁壹点传媒有限公司副总经理、技术总监宋耀介绍,语言大模型大都是一种基于Transformer模型,其底层逻辑是通过大数据预训练+小数据微调,用户在使用大模型的同时也是在对大模型进行有监督的人工反馈训练。


宋耀体验后发现,在首批通过审查的国产大模型中,无论是在文本、图像、视频等多模态内容生成,还是跨模态内容理解上,表现都还有待提升,用户很难得到自己真正想要的结果,尤其是在专业的新闻内容生产方面。在特定的专业领域,大模型的实用性还需要各行各业的专业人员持续探索和反馈,共同参与到国产大模型的进化迭代中”。

“在媒体实际工作中,通用大模型并没有很实用,反而是行业大模型更加有效率。”欧阳宏宇表示认同。

汤代禄举例说,部分通用大模型生成的结果参考了自媒体内容,可能不够准确,目前已经有媒体大模型能够明确标注信息来源,方便了媒体人做信息核实。

据传媒茶话会了解,目前市场上已经有新华社“MediaGPT”、中央广播电视总台“央视听”、每日经济新闻“雨燕智宣”、中科闻歌“雅意”、拓尔思“拓天”等媒体大模型,传媒茶话会将持续关注。


“相信国产大模型相继通过备案,面向更多用户公测后,服务供应商能获得更多数据,对产品的调教将更好,生成的内容也会更加优质。”宋耀表示。


媒体人还可以参考传媒茶话会相关文章,深度了解大模型,提高工作效率。


1.用ChatGPT写新闻?别急!先把这几个问题想清楚!

2.部分人被淘汰不可避免!但ChatGPT真能颠覆新闻业吗?

3.全球第一个ChatGPT主编上任,大变局终于来了吗?


主编:刘娟
撰稿:陈莹
校对:李媛

——The  End——


6年磨一剑,传媒茶话会主编的《传媒实操小红书》系列新书终于面世啦!





内 容 介 绍


“传媒实操小红书”是由传媒茶话会主编,人民日报出版社出版的新闻实操系列图书,既包含重大纪念日报道防错指南、两会报道注意事项、常见字词标点差错解析等新闻宣传工作者必须掌握的避雷建议;又有历届中国新闻奖获奖作品点评、好稿是怎样“修炼”成的等不可不知的采编技巧;还有10万+选题长什么样、如何打造新媒体爆款等不容错过的爆款经验。



购书方式


即日起,广大网友可以联系工作人员7折购买“传媒实操”系列图书。

图书销售客服专线:刘老师,电话15313967256(微信同号),也可扫码添加微信

  END  


往期推荐

主题教育有声版教材来了!云听邀你一起听

官宣!人民日报社迎来首位女副社长

倒计时60天!又有21地发布新闻记者职业资格考试通知!

【声明】内容源于网络
0
0
传媒茶话会
中国经济传媒协会主管,传媒研究头部新媒体平台,探讨主流媒体采编、经营、融合话题。
内容 3412
粉丝 0
传媒茶话会 中国经济传媒协会主管,传媒研究头部新媒体平台,探讨主流媒体采编、经营、融合话题。
总阅读4.2k
粉丝0
内容3.4k