

HF开源大型语言模型（LLM）排行榜 2023-06-12

数翼

2023-06-15

导读：HuggingFace 的开源大型语言模型（LLM）排行榜前几天更新了新内容，增加了人工和 GPT4 的打分。

HuggingFace 的开源大型语言模型（LLM）排行榜前几天更新了新内容，增加了人工和 GPT4 的打分。

评估方法

评估是通过让人类和 GPT-4 在一组秘密指令提示上比较来自一组流行的开源语言模型 (LLM) 的完成来进行的。提示涵盖头脑风暴、创意生成、常识推理、开放式问答、总结和代码生成等任务。比较是由人类和模型在 1-8 的李克特量表上进行的，其中标记者每次都需要选择一个偏好。使用这3些偏好，我们创建自举的 Elo 排名。

与 Scale AI 合作，按照上面的标签说明，在他们的平台上使用专业的数据标签工作人员生成补全。为了了解流行模型的评估，我们还让 GPT-4 使用此提示标记补全。

结果

排名

不计算平局的结果:

Model	GPT-4 (all)	Human (all)
vicuna-13b	1146	1237
koala-13b	1013	1085
oasst-12b	985	975
dolly-12b	854	701

不计算平局的结果:

Model	GPT-4 (all)	Human (all)
vicuna-13b	1161	1175
oasst-12b	1033	1004
koala-13b	977	1037
dolly-12b	827	782

GPT-4评估示例

这里是几个 GPT-4 的评估示例，让你来评你会和 GPT-4 给出一样的结果么？

问题：指出这本书所属的类型。\n 输入：霍乱时期的爱情。

模型回答（koala）：

《霍乱时期的爱情》类型是魔幻现实主义和历史小说元素相结合的言情小说。讲述了费尔明纳·达萨和弗洛伦蒂诺·阿里萨两个深爱着她却因种种原因无法在一起的男人的故事。在他们的一生中，他们遇到了阻止他们团聚的障碍，包括战争、疾病和社会压力。然而，他们对彼此的爱从未消退，他们继续抱有希望，希望有一天他们能再次在一起。这种浪漫元素与历史脉络的结合，使得本书属于魔幻现实主义和历史虚构元素的言情小说。

人类回答：

小说

GPT-4 评分：1（模型更好）

助理1提供了更详细和准确的答案，讨论了小说中出现的浪漫、魔幻现实主义和历史小说的元素。助理 2 的回答过于简短，没有提供有关该书类型的足够信息。

问题：

写一篇 LinkedIn 帖子，宣布您已接受新的工作机会。\n 输入：

模型回答（koala）：

振奋人心的消息！我很高兴地宣布，我已经正式接受了一个激动人心的新工作机会，作为 [公司名称] 的 [职位名称]。这个角色将使我能够利用我在 [行业/专业领域] 的技能和经验，同时也为个人和专业发展提供机会。我想借此机会向在整个招聘过程中支持我的每个人表示感谢，包括[前雇主姓名或提供指导/建议/参考的个人]。您的支持对我来说意味着整个世界，我对您的帮助感激不尽。

我对未来感到兴奋，迫不及待地想加入 [Company Name] 的团队。再次感谢大家的支持！

人类回答：

我很高兴能与您分享我接受 XYZ 公司营销总监一职的决定！

如果不是我的朋友 [姓名] 和我分享了这份工作机会，还有我的前任老板 [老板的名字] 的大力推荐和指导，我不可能有这个机会。

我很高兴地期待着开始这段新的旅程，并与我的新家人——XYZ 公司的营销摇滚明星一起在专业上成长。

GPT-4 评分：6（模型更好）

两位助理都对 LinkedIn 上宣布新工作机会的帖子提供了有用且相关的回复。但是，Assistant 2 的回答更加详细，并包含特定信息的占位符，使用户更容易自定义帖子。助理 1 的回复也不错，但与助理 2 的回复相比，结构和详细程度稍差。

--- END ---

【声明】内容源于网络

数翼

专注 AIGC 人工智能知识传播和实践

内容 228

粉丝 0

数翼专注 AIGC 人工智能知识传播和实践

总阅读29

粉丝0

内容228