大数跨境
0
0

阿里版GPT“通义千问”现身,加入国内AI战局

阿里版GPT“通义千问”现身,加入国内AI战局 名锐讯动MRT
2023-04-13
1
导读:阿里作为AI的后来者,正在不断缩小国内外AI技术原本庞大的差距,而通义千问,也成为了AI大规模领域中,国内AI战局里半路杀出的实力玩家。

最新资讯|时代热点|政策观点

每周资讯

WEEKLY INFORMATION




阿里版GPT“通义千问”

现身加入国内AI战局






在百度文心一言紧随ChatGPT发布后,阿里于4月7日正式邀测阿里旗下的首个突破10万亿参数的AI大模型——“通义千问”。此外,阿里发布通义千问同时,牵头搭建了国内规模最大的AI服务社区“魔塔”。

图 | 通义千问官网





但是,路遥知马力,还得经过测试才能看出通义千问与文心一言、GPT二者的差距与区别。由于投喂的测试案例偏多,老问题已经很难再测试出差距。接下来是来自AI领域自媒体知危的GPT、文心一言、通义千问的测试案例。


1、语义理解测试:“李四状差点上上上上海的车”这句话是什么意思?

通义千问:


文心一言:


GPT:


这一轮看来,国内本土的通义千问和文心一言都能理解且思路贴切实际,而ChatGPT对于刁钻的中文句子理解还略有欠缺。



2. 附加场景、语气的语义理解测试:我在七夕节晚上向一个女孩子表白,问她是否可以做我女朋友,她回答我说 “笨蛋,我今晚都出来见你了,你说呢?”,请问女孩接受我的表白了吗?


通义千问:


文心一言:


GPT:



这一轮测试中,三个大规模表现的水平相较来说比较一致。



3. 不符合逻辑的问题测试:为什么意大利面要拌42号混凝土?


通义千问:



文心一言:


GPT:



在这一轮测试中,通义千问和 ChatGPT 都意识到了问题是 “不合逻辑的”,而文心一言则是把 42 号混凝土说成了是 “烹饪意大利面的理想材料”。



4.推理判断能力测试:我走在马路上,一个陌生人突然小声对我说 “救救我”,请问可能发生什么事了?


通义千问:


文心一言:


GPT:


在这一轮测试中,通义千问与 ChatGPT 的推理能力都在线,文心一言则是有些答非所问。



5.逻辑、推断能力测试:一千个读者眼里有一千个哈姆雷特,那一万个读者眼里有多少个哈姆雷特?


通义千问:


文心一言:



GPT:



令人惊艳的是,通义千问并不像文心一言和GPT一样基于出准确的数字给我们答复,而是完全理解了“一千个读者眼里有一千个哈姆雷特”的语义,并进行了部分人在理解与解读上有相同的情况,故不应该以准确的数字给出答案。




由于篇幅限制,并未能将各方面都测试全面。但从几个测试中可看出,在逻辑、推断能力上,三家的水平也是旗鼓相当,而通义千问似乎更严谨一点,某些时候能考虑到更多因素。


通义千问的水平被测试者称为能够与ChatGPT持平或稍有瑕疵的国内大规模AI平台,与文心一言相比则是有来有回。相较于另外两家,通义千问的回答生成更倾向于理性与严谨。同时在富有逻辑的同时也能做到理解与判断在线,与文心一言一样,有着对于GPT来说更占优势的本土文化基底。


当然,所有的生成式对话的AI都会有偶尔答非所问、架空事实的问题出现,在开放测试后也会随着用户的反馈和使用投喂案例不断学习与完善。


除此之外,还有一个很有意思的值得关注的点是,当人们问通义千问开始被训练的时间




可见,每一次惊艳和爆炸性的技术革新与科技进步都是在还没开始之前就已经未雨绸缪了。而阿里作为AI的后来者,正在不断缩小国内外AI技术原本庞大的差距,而通义千问,也成为了AI大规模领域中,国内AI战局里半路杀出的实力玩家。



END


【来源:广州名锐讯动信息科技有限公司】    

【编辑:名锐讯动运营部】


【声明】内容源于网络
0
0
名锐讯动MRT
广州名锐讯动信息科技有限公司业务涵盖:网站建设、系统定制开发、小程序开发、APP开发、H5开发、NFT区块链开发、AI人工智能开发等。专注于为企业制订专属互联网+解决方案,紧跟数字化人工智能时代。
内容 50
粉丝 0
名锐讯动MRT 广州名锐讯动信息科技有限公司业务涵盖:网站建设、系统定制开发、小程序开发、APP开发、H5开发、NFT区块链开发、AI人工智能开发等。专注于为企业制订专属互联网+解决方案,紧跟数字化人工智能时代。
总阅读0
粉丝0
内容50