

LMSYS 聊天机器人竞技排行榜 2023-05-03

数翼

2023-06-12

导读：为了促进LLM在聊天机器人领域的发展和创新， LMSYS Org 创建了一个名为 Chatbot Arena 的平台。它展示了不同的聊天机器人模型在与真实用户对话中的性能和评分。

为了促进LLM在聊天机器人领域的发展和创新， LMSYS Org 创建了一个名为 Chatbot Arena 的平台。它展示了不同的聊天机器人模型在与真实用户对话中的性能和评分。不同的机器人以众包方式提供匿名，随机的战斗，该平台计划定期更新一次排行榜，根据模型与用户对话的结果来计算模型的Elo评分。

首先先看下排名，再详细说：

项目背景

聊天机器人是一种能够与人类进行自然语言交互的智能系统，它们在各个领域都有着广泛的应用和前景。随着大型语言模型（LLM）的出现和发展，聊天机器人的性能和能力也得到了显著的提升。LLM是一种利用大量文本数据来学习语言知识和规律的深度神经网络模型，它们可以生成流畅、连贯、有意义的文本，甚至可以完成一些特定的任务或目标。目前，LLM已经成为了聊天机器人领域的主流技术之一，吸引了众多的研究者和开发者。

项目介绍

为了促进LLM在聊天机器人领域的发展和创新， LMSYS Org 创建了一个名为 Chatbot Arena 的平台。

LMSYS Org

LMSYS Org 是一个由加州大学伯克利分校的学生和教师组成的开放研究组织，它旨在通过共同开发的方式，使大型模型更加易于使用和可访问。

Chatbot Arena

Chatbot Arena 是一个大型语言模型（LLM）的基准平台，它展示了不同的聊天机器人模型在与真实用户对话中的性能和评分。不同的机器人以众包方式提供匿名，随机的战斗，该平台计划每周更新一次排行榜，根据模型与用户对话的结果来计算模型的Elo评分。

Elo 评分

Elo评分是一种衡量模型相对水平和优劣的指标，是国际象棋和其他竞技游戏中广泛使用的评级系统。

流行的开源大型语言模型的 Elo 评级

表格在手机上显示不太直观，先看图片。

Rank	Model	Elo
1	🥇 vicuna-13b	1169
2	🥈 koala-13b	1082
3	🥉 oasst-pythia-12b	1065
4	alpaca-13b	1008
5	chatglm-6b	985
6	fastchat-t5-3b	951
7	dolly-v2-12b	944
8	llama-13b	932
9	stablelm-tuned-alpha-7b	858

表 1 显示了九种流行型号的 Elo 评级，这些模型基于本笔记本中共享的 4.7K 投票数据和计算。您还可以尝试投票演示并查看最新的排行榜。

项目介绍

随着 ChatGPT 的巨大成功，开源大型语言模型激增，这些模型经过微调以遵循说明。这些模型能够为响应用户的问题/提示提供有价值的帮助。值得注意的例子包括基于 LLaMA 的 Alpaca 和 Vicuna ，以及基于 Pythia 的 OpenAssistant 和 Dolly 。

尽管每周都会不断发布新模型，但社区在有效对这些模型进行基准测试方面面临着挑战。对LLM助手进行基准测试极具挑战性，因为问题可能是开放式的，并且很难编写程序来自动评估响应质量。在这种情况下，我们通常必须诉诸基于成对比较的人工评估。

对比系统属性

基于成对比较的良好基准系统有一些所需的属性：

• 可扩展性：当无法为所有可能的模型对收集足够的数据时，系统应扩展到大量模型。
• 增长性：该系统应该能够使用相对较少的试验来评估新模型。
• 唯一顺序：系统应为所有模型提供唯一的顺序。给定任何两个模型，我们应该能够分辨出哪个排名更高或它们是否并列。

现有的LLM基准系统很少满足所有这些属性。经典的LLM基准框架，如HELM和lm-evaluation-harness，为学术研究中常用的任务提供多指标测量。但是，它们不是基于成对比较，在评估开放式问题方面无效。OpenAI还启动了evals项目来收集更好的问题，但该项目并未为所有参与模型提供排名机制。当我们推出骆马模型时，我们使用了基于 GPT-4 的评估管道，但它没有为可扩展和增量评级提供解决方案。

Chatbot Arena

在这篇博文中，我们介绍了 Chatbot Arena，这是一个LLM基准平台，以众包方式进行匿名随机战斗。聊天机器人竞技场采用Elo评级系统，这是国际象棋和其他竞技游戏中广泛使用的评级系统。Elo评级系统有望提供上述所需的属性。我们注意到Anthropic LLM论文也采用了Elo评级系统。

为了收集数据，我们在一周前推出了几个流行的开源LLM的竞技场。在竞技场中，用户可以并排与两个匿名模型聊天，并投票选出哪个更好。这种众包数据收集方式代表了LLM在野外的一些用例。几种评估方法之间的比较如表2所示。

评估方法和说明

不同评估方法之间的比较

数据采集

我们在 https://arena.lmsys.org 使用我们的多模型服务系统FastChat主持了竞技场。当用户进入竞技场时，他们可以并排与两个匿名模型聊天，如图 1 所示。在得到两个模型的响应后，用户可以继续聊天或投票给他们认为更好的模型。提交投票后，模型名称将被揭示。用户可以继续聊天或使用两个随机选择的新匿名模型重新开始新的战斗。该平台记录所有用户交互。在我们的分析中，我们仅在模型名称隐藏时使用投票。

该竞技场大约在一周前启动，从那时起我们已经收集了4.7k有效的匿名投票。我们在本Notebook中分享一些探索性分析，并在此处提供简短的摘要。

上图显示了每种模型组合的战斗计数。当我们最初启动锦标赛时，我们根据我们的基准预先获得了有关可能排名的信息，并选择根据该排名配对模型。根据这个排名，我们优先考虑我们认为会是强配对。但是，我们后来切换到统一抽样，以获得更好的排名整体覆盖率。在比赛即将结束时，我们还推出了一款新车型。所有这些都会导致模型频率不均匀。fastchat-t5-3b