HuggingFace 的开源大型语言模型(LLM)排行榜前几天更新了新内容,增加了 人工和 GPT4 的打分。
评估方法
评估是通过让人类和 GPT-4 在一组秘密指令提示上比较来自一组流行的开源语言模型 (LLM) 的完成来进行的。提示涵盖头脑风暴、创意生成、常识推理、开放式问答、总结和代码生成等任务。比较是由人类和模型在 1-8 的李克特量表上进行的,其中标记者每次都需要选择一个偏好。使用这3些偏好,我们创建自举的 Elo 排名。
与 Scale AI 合作,按照上面的标签说明,在他们的平台上使用专业的数据标签工作人员生成补全。为了了解流行模型的评估,我们还让 GPT-4 使用此提示标记补全。
结果
排名
不计算平局的结果:
| Model | GPT-4 (all) | Human (all) |
| vicuna-13b | 1146 | 1237 |
| koala-13b | 1013 | 1085 |
| oasst-12b | 985 | 975 |
| dolly-12b | 854 | 701 |
不计算平局的结果:
| Model | GPT-4 (all) | Human (all) |
| vicuna-13b | 1161 | 1175 |
| oasst-12b | 1033 | 1004 |
| koala-13b | 977 | 1037 |
| dolly-12b | 827 | 782 |
GPT-4评估示例
这里是几个 GPT-4 的评估示例,让你来评你会和 GPT-4 给出一样的结果么?
问题:指出这本书所属的类型。\n 输入:霍乱时期的爱情。
模型回答(koala):
《霍乱时期的爱情》类型是魔幻现实主义和历史小说元素相结合的言情小说。讲述了费尔明纳·达萨和弗洛伦蒂诺·阿里萨两个深爱着她却因种种原因无法在一起的男人的故事。在他们的一生中,他们遇到了阻止他们团聚的障碍,包括战争、疾病和社会压力。然而,他们对彼此的爱从未消退,他们继续抱有希望,希望有一天他们能再次在一起。这种浪漫元素与历史脉络的结合,使得本书属于魔幻现实主义和历史虚构元素的言情小说。
人类回答:
小说
GPT-4 评分:1(模型更好)
助理1提供了更详细和准确的答案, 讨论了小说中出现的浪漫、魔幻现实主义和历史小说的元素。助理 2 的回答过于简短,没有提供有关该书类型的足够信息。
问题:
写一篇 LinkedIn 帖子,宣布您已接受新的工作机会。\n 输入:
模型回答(koala):
振奋人心的消息!我很高兴地宣布,我已经正式接受了一个激动人心的新工作机会, 作为 [公司名称] 的 [职位名称]。这个角色将使我能够利用我在 [行业/专业领域] 的技能和经验, 同时也为个人和专业发展提供机会。我想借此机会向在整个招聘过程中支持我的每个人表示感谢, 包括[前雇主姓名或提供指导/建议/参考的个人]。您的支持对我来说意味着整个世界,我对您的帮助感激不尽。
我对未来感到兴奋,迫不及待地想加入 [Company Name] 的团队。再次感谢大家的支持!
人类回答:
我很高兴能与您分享我接受 XYZ 公司营销总监一职的决定!
如果不是我的朋友 [姓名] 和我分享了这份工作机会,还有我的前任老板 [老板的名字] 的大力推荐和指导,我不可能有这个机会。
我很高兴地期待着开始这段新的旅程,并与我的新家人——XYZ 公司的营销摇滚明星一起在专业上成长。
GPT-4 评分:6(模型更好)
两位助理都对 LinkedIn 上宣布新工作机会的帖子提供了有用且相关的回复。但是,Assistant 2 的回答更加详细,并包含特定信息的占位符,使用户更容易自定义帖子。助理 1 的回复也不错,但与助理 2 的回复相比,结构和详细程度稍差。
--- END ---

