大数跨境
0
0

LMSYS 聊天机器人竞技排行榜 2023-05-10

LMSYS 聊天机器人竞技排行榜 2023-05-10 数翼
2023-06-13
0
导读:为了促进LLM在聊天机器人领域的发展和创新, LMSYS Org 创建了一个名为 Chatbot Arena

为了促进LLM在聊天机器人领域的发展和创新, LMSYS Org 创建了一个名为 Chatbot Arena 的平台。它展示了不同的聊天机器人模型在与真实用户对话中的性能和评分。5月10号的更新中,竞技场中添加了 4 个新的但强大的玩家。

先看下排名图。

排名 模型 ELo 得分
1 🥇 GPT-4 1274
2 🥈 Claude-v1 1224
3 🥉 GPT-3.5-turbo 1155
4 Vicuna-13B 1083
5 Koala-13B 1022
6 RWKV-4-Raven-14B 989
7 Oasst-Pythia-12B 928
8 ChatGLM-6B 918
9 StableLM-Tuned-Alpha-7B 906
10 Alpaca-13B 904
11 FastChat-T5-3B 902
12 Dolly-V2-12B 863
13 LLaMA-13B 826

完整的截图如下:

聊天机器人竞技排行榜 2023-05-10

在5月10号的更新中,我们在竞技场中添加了 4 个新的但强大的玩家,包括三个专有模型和一个开源模型。他们是:

  • • OpenAI GPT-4

  • • OpenAI GPT-3.5-turbo

  • • Anthropic Claude-v1

  • • RWKV-4-Raven-14B

下面表格展示了所有 13 个模型的 Elo 评级, 这些评级基于本笔记本共享的 13K 投票数据和计算。

排名 模型 ELo 得分 描述 许可证
1 🥇 GPT-4 1274 OpenAI 的 ChatGPT-4 私有
2 🥈 Claude-v1 1224 Anthropic的克劳德 私有
3 🥉 GPT-3.5-turbo 1155 OpenAI 的 ChatGPT-3.5 私有
4 Vicuna-13B 1083 LLaMA 对 LMSYS 的用户共享对话进行微调的聊天助手 权重可用;非商业用途
5 Koala-13B 1022 BAIR 的学术研究对话模型 权重可用;非商业用途
6 RWKV-4-Raven-14B 989 具有变压器级 LLM 性能的 RNN Apache 2.0
7 Oasst-Pythia-12B 928 LAION 人人可用的开放助手 Apache 2.0
8 ChatGLM-6B 918 清华大学开放式双语对话语言模型 权重可用;非商业用途
9 StableLM-Tuned-Alpha-7B 906 稳定性 AI 语言模型 CC-BY-NC-SA-4.0
10 Alpaca-13B 904 LLaMA 在斯坦福的指令遵循演示中微调的模型 权重可用;非商业用途
11 FastChat-T5-3B 902 LMSYS 从 FLAN-T5 微调的聊天助手 Apache 2.0
12 Dolly-V2-12B 863 Databricks 的指令调优开放大型语言模型 MIT
13 LLaMA-13B 826 Meta 开放高效的基础语言模型 权重可用;非商业用途
每个模型的战斗计数

结果分析

专有模型与开源模型之间的差距

结果可以观察到三种专有模型与所有其他开源模型之间存在巨大差距。特别是,GPT-4 在董事会中处于领先地位,获得了 1274 的 Elo 分数。它比该董事会上最好的开源替代品——我们的 Vicuna-13B 高出近 200 分。在打平后,GPT-4 在对抗 Vicuna-13B 时赢得了 82% 的比赛, 在对抗上一代 GPT-3.5-turbo 时甚至赢得了 79% 的比赛。

然而,值得注意的是,排行榜上的这些开源模型通常比专有模型具有更少的参数,在 3B - 14B 范围内。事实上,最近在 LLM 和数据管理方面的进步已经允许使用更小的模型显着提高性能。 谷歌最新的 PaLM 2就是一个很好的例子:我们知道 PaLM 2 使用更小的模型尺寸实现了比上一代更好的性能,我们对开源语言模型赶超的潜力仍然非常乐观。通过我们基于 FastChat 的 Chatbot Arena和这个排行榜的努力,我们希望为评估 LLM 贡献一个值得信赖的评估平台,并帮助推进这一领域并为每个人创建更好的语言模型。

比较专有模型

然而,在三个专有模型中,根据我们收集的投票结果,我们确实观察到 Anthropic 的 Claude 模型比 GPT-3.5-turbo 更受我们用户的青睐,GPT-3.5-turbo 经常被讨论为它的对手。事实上,即使在与最强大的模型——OpenAI 的 GPT-4 竞争时,克劳德也具有很强的竞争力。查看胜率图(下图 3),在 GPT-4 和克劳德之间的 66 场非平局比赛中,克劳德确实在 32 场(48%)比赛中战胜了 GPT-4。人类团队干得好!

比较开源聊天机器人

在此更新中,由于社区贡献,我们将 RWKV-4-Raven-14B 模型添加到竞技场。与所有其他模型不同,RWKV 模型是一个 RNN 而不是基于 transformer 的模型;但它的表现出奇的好!它很快在排行榜上呈上升趋势,并在整体排行榜上排名第 6。它在与除 Vicuna 之外的所有其他开源模型的非平局比赛中获胜超过 50%。欢迎您查看其存储库,以了解更多有关内存节省和快速推理等其他功能的信息。感谢 RWKV 开发人员。

Elo分数的波动

现有模型的Elo分数可能会根据新游戏的结果上下波动。这类似于国际象棋选手的 Elo 分数随时间变化的方式 (参见此处)。自从三大专属模式强者的加入,聊天机器人竞技场的竞争空前激烈!因此,我们观察到所有开源模型的 Elo 分数都有所下降。这是因为开源模型在对抗专有模型时会失去很多成对匹配。

GPT-4 什么时候失效?

我们举了一些用户不喜欢 GPT-4 的例子。

Claude 优于 GPT-4 的一个示例

上图中用户提出了一个需要仔细推理和规划的棘手问题。尽管 Claude 和 GPT-4 都提供了相似的答案,但对于 Top 的回答,Claude 的反应稍微好一些。然而,我们观察到由于抽样的随机性,这个例子的结果不能总是被复制。有时 GPT-4 也可以给出与 Claude 相同的命令,但在这一代试验中失败了。

此外,我们注意到 GPT-4 的行为在使用 OpenAI API 与 ChatGPT 界面时略有不同, 这可能是由于不同的提示、采样参数或其他未知因素造成的。

一个用户认为 Claude 和 GPT-4 都错了的例子

上图中,尽管 Claude 和 GPT-4 具有惊人的能力,但它们仍在努力解决这种棘手的推理问题。

除了这些棘手的案例,还有很多不需要复杂推理或知识的简单问题。在这种情况下,像 Vicuna 这样的开源模型的性能可以与 GPT-4 相媲美, 因此我们可以使用稍微弱一点(但更小或更便宜)的 LLM 来代替更强大的 GPT-4。

获胜分数矩阵

我们在下图中展示了所有模型对的获胜分数。

模型在所有非平局战斗中获胜的比例

每个模型组合的战斗次数

每个模型的战斗计数

特定语言排行榜

仅英语和非英语排行榜

最后,我们通过将对话数据根据语言分为两个子集,展示了两个特定语言排行榜:(1) 纯英语和 (2) 非英语。从图中,我们可以看出 Koala 在非英语语言方面更差,而 ChatGLM-6B 在非英语语言方面更好。这是因为他们的训练数据的组成不同。



--- END ---



【声明】内容源于网络
0
0
数翼
专注 AIGC 人工智能知识传播和实践
内容 228
粉丝 0
数翼 专注 AIGC 人工智能知识传播和实践
总阅读61
粉丝0
内容228