大数跨境
0
0

就这比肩 GPT4? Claude 3 告诉我父母结婚违法!!!

就这比肩 GPT4? Claude 3 告诉我父母结婚违法!!! 数翼
2024-03-05
2
导读:Anthropic 昨晚静悄悄发布的 Claude 3,今天让人工智能圈子炸了锅, 当我也兴冲冲的各种评测时候

Anthropic 昨晚 静悄悄发布的 Claude 3,今天让人工智能圈子炸了锅, 当我也兴冲冲的各种评测时候,Claude 3 的一个回答把我给劝退了。

Anthropic 昨晚静悄悄发布的 Claude 3,说静悄悄是其只在推特上发了个推,就没有了。

但是各种屌炸天的能力也让AI圈子一下子炸了锅,不少人都喊话 OpenAI 感慨发布 ChatGPT 5, 不然老大的位置保不住了。

和 GPT4 各项测试要么持平,要么领先

我也当然是一通研究测试,但是当我问了 Claude3 一个问题之后,我蚌埠住了。然后我又测试了很多模型,这个问题几乎打脸了所有我之前认为是很牛的 AI 模型, 反倒是一些在技术和媒体人眼中不起眼的 模型给出了完美答案。

提问: 『简单回答父亲母亲能结婚么』

对,就是上面一个简单的问题,下面看看市面上常见的 LLM 和聊天应用怎么回答的吧。

Claude 3

见证奇迹,直接看图:

Claude 3

你看看,这说的是特么人话么,而且是法律道德的双重规范,都不允许结婚。

再说了,哪个生物老师跟你说过父亲和母亲之间是近亲的???

无论你多么先进、多强的推理、多大的上下文,在这个问题上我单方面宣布它真的很蠢。

Claude 3 的三个模型

我用的是 Claude 3 Sonnet进行测试的,Opus 我也感觉没有花钱的必要了。

如果 AI 的新王者 Claude 3 都智障如此,那么其他的AI呢,一起看看,结果能让人怀疑人生。

ChatGPT 3.5

这是目前世界上使用最广泛的 AI 模型,虽然免费,但是也已经能满足日常绝大部分用用户的需求。

ChatGPT 3.5

但是测试结果明显不好,第二个失败案例,也说是近亲,不知道的还以为近亲是后天形成的。

谷歌 Gemini

Gemini 是谷歌最强大的 AI 大模型,强大的模型却回答不了简单的问题。

Gemini

中国婚姻法都搬出来了,有理有据的胡说八道,今天测试的第三个失败案例。

直系亲属 是说父亲和子女母亲和子女等,没有父亲和母亲这一项哦。

抖音豆包

抖音这个模型回答的也是差强人意。

抖音豆包

前面说可以结婚,感觉是在正确的路上走着呢。

抖音豆包

接着就告诉我近亲结婚有风险,合着你的意思是只能在法律允许近亲结婚的国家和文化里面父母才能结婚么。

重新提问一下:

这次回答对了,而且还挺严谨,追问一下,也回答正确。

新开一个对话测试:

逻辑不那么完美,这个勉强算成功吧。

月之暗面 Kimi

Kimi 这个也是最近大受追捧的大模型,颇有后来者居上之势,由月之暗面发布。

月之暗面 月之暗面(Moonshot AI)由清华大学交叉信息学院、智源青年科学家杨植麟领衔创立于2023年4月, 公司总部设立在北京,同时在上海临港设有分公司。

Kimi

不允许近亲结婚非法,完全失败。

微软 Bing Copilot

同样是不能,还给我贴心的高亮了出来。

还引用了知乎,还给我饶了口令,反正我是没看太明白。而且我让你简单回答, 你这回答也不简单啊。

完全失败。

Meta Llama-2 70B

开源大模型的王者, Llama-2 70B的版本。

失望,它说中国法律不允许父母结婚。

然而他竟然告诉我如果实在想结婚,你能这样???

这个纯纯是理解有问题啊。

谷歌 PaLM

那么测试下谷歌早期的模型?

好吧结果仍然不对。

Claude instant

Claude 早期的模型也不行。

智谱 GLM-3

清华智谱的 GLM-3 是我开发应用常用的大模型,少样本提示就能达到之前 大量数据微调才能达到的效果。看看表现如何:

智谱 GLM-3

智谱GLM-3的回答,很割裂,第一句 父亲和母亲之间的婚姻关系通常指的是夫妻关系 , 都已经把答案说出来了。

但是接着你就给我从生物学上否定了,血亲父母之间不能结婚??不结婚,哪能合理合法的出现血亲。

虽然没直接说,父母不能结婚,但是你这解释谁听了也都是不能结婚的意思。

追问一下吧,它很很明确大多数情况下,亲生父亲和亲生母亲之间已经是婚姻关系的一部分

但是又没分清楚 亲生父亲和亲生母亲正常情况下不是直系血亲。

勉强算通过吧。

智谱 GLM-4

新一代的 GLM 模型,推理方面更厉害,但是已然回答不好这个问题。

告诉我们可以结婚,但是没有意识到他们很可能是已婚的,还提到继父养父什么,有点儿多此一举。

追问一下:

这次回答的很正常了。

You GPT 4

由于用途不大,我关闭了 OpenAI 的订阅,我们用三方调用来简单测试下 GPT 4。

GPT4

回答是正确了,事实上的最高水平果然。

You GPT 4 Turbo

来看看 GPT 4 的蒸馏版本。

GPT4 Turbo

回答对了,其实是受到了上下文的影响,我们用新的上下文,可以看到熟悉的配方,法律和伦理的双重不允许。

You Gemini Pro

You 上面的 Gemini Pro 也回答正确了???

是不是上下文影响了,新开一个会话,发现回答是错误的。

直接在 Studio 里面测试 API,结果同样是简洁而错误的。

You Claude 2

这个回答对了?其实是受到了上下文的影响,新的上下文测试:

直接跟我说,不能 以及 违法

You Smart

You 免费的 API 竟然也回答对了。

我想是不是上下文影响了,重新开一个会话测试:

虽然没有那么简洁,但是回答的已然正确。

阿里通义千问

阿里的通义千问回答也正确,不过一大段话看起来有点儿乱。

通义千问

回答的也很全面,离婚后是否可以再婚 等问题也给出依据进行回答。

不过言多必失,前面刚说了可能再婚,后面又说不能再次与对方结婚(大概是都已经结婚了,干嘛再结婚,不可能给你发两个结婚证的意思), 逻辑和语言组织表达稍微有点儿问题。

(如离婚)也有再婚的可能,但这并不意味着父亲和母亲能再次与对方结婚,因为他们始终是同一对夫妻,不存在重复结婚的情况。

商汤商量 SenseNova

商汤回答的不错。

讯飞星火大模型

直接看图:

讯飞星火大模型

这是迄今为止最好的答案了。

回答中用通常是已婚夫妻,哈哈,十分严谨!!!

还没结婚也不用担心,只要合法咱就能结。

百度文心一言

文心大模型 3.5

这个解释可以说是教科书级别的:父亲和母亲通常指的是已经结婚并生育子女的男性和女性。

他们已经结婚了。当然,也存在未婚、离婚的情况 回答的真是滴水不漏。

总结

今天一共测试了 20 个模型或应用(Gemini App 和 Gemini Pro 算了两个),如果何在一起计算的话是 19 个模型。

可能很多人都和我一样,觉得国外的大模型(比如 GPT4、Gemini、Claude 等),抛去语言的差异, 其能力一直领先国内的, 不过今天对这20个模型或应用测试之后,我觉得我要跟国产的AI厂商说一句,对不起,我之前说话声音有点儿大。

下面再回顾下测试结果:

20个模型或应用的测试

以后谁再看不起国产 AI 我跟他急。


--- END ---


【声明】内容源于网络
0
0
数翼
专注 AIGC 人工智能知识传播和实践
内容 228
粉丝 0
数翼 专注 AIGC 人工智能知识传播和实践
总阅读61
粉丝0
内容228