0
0
分享网址

Meta、OpenAI、Anthropic 和 Cohere AI 模型都是胡编乱造的——这是最糟糕的

跨语桥梁
2023-11-21
507
大数跨境 导读: 根据周四的一份报告,Arthur AI 的研究人员测试了来自 Meta、OpenAI、Cohere 和 Anthropic 的顶级人工智能模型,发现某些模型比其他模型更多地编造事实或“产生幻觉”。


研究人员发现,Cohere 的 AI 产生幻觉最多,而 Meta 的 Llama 2 产生的幻觉总体上比 GPT-4 和 Claude 2 更多。
总体而言,GPT-4 在所有测试的模型中表现最好,研究人员发现它的幻觉比之前的版本 GPT-3.5 少——例如,在数学问题上,它的幻觉减少了 33% 到 50%。取决于类别。
如果科技行业的顶级人工智能模型有最高级的话,那么微软
- 支持 OpenAI 的 GPT-4 将最擅长数学、元
的 Llama 2 将是最中间的道路,Anthropic 的 Claude 2 将最擅长了解其局限性,而 Cohere AI 将获得最多幻觉和最自信的错误答案的称号。

这一切都是根据机器学习监控平台 Arthur AI 的研究人员周四发布的报告得出的。

这项研究是在 2024 年美国总统大选前,生成式人工智能蓬勃发展之际,人工智能系统产生的错误信息引发比以往任何时候都更加激烈的争论。

这是第一份“全面了解幻觉发生率的报告,而不仅仅是……提供一个单一的数字来说明他们在法学硕士排行榜上的位置”,Arthur 联合创始人兼首席执行官 Adam Wenchel 说道。告诉 CNBC。

当大型语言模型(LLM)完全捏造信息,表现得好像在滔滔不绝地讲述事实时,人工智能幻觉就会发生。举个例子:今年6月,有消息称ChatGPT  在一份纽约联邦法院文件中 引用了“虚假”案件,涉案的纽约律师可能面临制裁。

在一项实验中,亚瑟人工智能研究人员在组合数学、美国总统和摩洛哥政治领导人等类别中测试了人工智能模型,提出的问题“旨在包含导致法学硕士犯错的关键因素:他们需要对信息进行多个推理步骤, “研究人员写道。

总体而言,OpenAI 的 GPT-4 在所有测试的模型中表现最好,研究人员发现它的幻觉比之前的版本 GPT-3.5 少——例如,在数学问题上,它的幻觉减少了 33% 到 50%。取决于类别。

另一方面,研究人员发现,Meta 的 Llama 2 比 GPT-4 和 Anthropic 的 Claude 2 产生更多的幻觉。

在数学类别中,GPT-4 位居第一,紧随其后的是 Claude 2,但在美国总统类别中,Claude 2 在准确性方面排名第一,将 GPT-4 挤到了第二位。当被问及摩洛哥政治时,GPT-4 再次排在第一位,Claude 2 和 Llama 2 几乎完全选择不回答。

在第二个实验中,研究人员测试了人工智能模型会在多大程度上用警告短语来对冲他们的答案,以避免风险(想想:“作为一个人工智能模型,我无法提供意见”)。

研究人员写道,在对冲方面,GPT-4 与 GPT-3.5 相比相对增加了 50%,这“量化了用户的轶事证据,表明 GPT-4 使用起来更令人沮丧”。另一方面,据报告称,Cohere 的人工智能模型在其任何响应中根本没有对冲。研究表明,Claude 2 在“自我意识”方面最为可靠,这意味着准确衡量它知道什么和不知道什么,并且只回答有训练数据支持的问题。

Cohere 的一位发言人反驳了这一结果,他表示:“Cohere 的检索增强生成技术并未在测试的模型中出现,但它在为企业提供可验证的引文以确认信息来源方面非常有效。”

温切尔说,对用户和企业来说最重要的收获是“测试你的确切工作负载”,后来补充道,“了解它如何执行你想要完成的任务非常重要。”

“许多基准只是考察法学硕士本身的某种衡量标准,但这实际上并不是它在现实世界中使用的方式,”温切尔说。“确保你真正了解法学硕士的实际使用方式是关键。”
原文链接:https://www.cnbc.com/2023/08/17/which-ai-is-most-reliable-meta-openai-anthropic-or-cohere.html

【版权声明】秉承互联网开放、包容的精神,大数跨境欢迎各方(自)媒体、机构转载、引用我们原创内容,但要严格注明来源大数跨境;同时,我们倡导尊重与保护知识产权,如发现本站文章存在版权问题,烦请将版权疑问、授权证明、版权证明、联系方式等,发邮件至 zoey@10100.com,我们将第一时间核实、处理。
0
0
跨语桥梁
大家好
内容 4078
粉丝 0
关注
跨境百科
跨境职场人