大数跨境
0
0

第一个超越ChatGPT的开源模型来了?网友并不买账

第一个超越ChatGPT的开源模型来了?网友并不买账 极市平台
2023-07-03
0
↑ 点击蓝字 关注极市平台
来源丨机器之心

极市导读

 

开源模型真的超过 ChatGPT了吗? >>加入极市CV技术交流群,走在计算机视觉的最前沿

大模型火了起来,每天我们都能看到各种「大」新闻。


今天,又来了个 Big News:新开源的一个大模型超越了 ChatGPT。

具体是什么呢?

OpenLLM 是一系列在极小、多样且高质量的多轮对话数据集上进行微调的开源语言模型。

这两日,作者们更新了该系列模型,并宣称:OpenChat 模型在 AlpacaEval 上获得 80.9% 的胜率;在 Vicuna GPT-4 评估上,性能达到 ChatGPT 的 105%。


也就是上面推特截图中,两位博主宣称的开源模型超越 ChatGPT/GPT-3.5。

OpenLLM 的特色是基于 LLaMA 开源模型,在只有 6,000 个 GPT4 对话的数据集上进行微调,从而达到非常好的效果。

此次更新的模型型号与评审结果如下:

  • OpenChat:基于 LLaMA-13B,上下文长度为 2048。
  • 在Vicuna GPT-4 评估中达到 ChatGPT 分数的 105.7% 。
  • 在 AlpacaEval 上达到 80.9% 的胜率。
  • OpenChat-8192:基于 LLaMA-13B,扩展上下文长度为 8192。
  • 在 Vicuna GPT-4 评估中达到 ChatGPT 分数的 106.6% 。
  • 在 AlpacaEval 上实现 79.5% 的胜率。

也就是说,两个模型在 Vicuna GPT-4 评估榜单上结果都超越了 ChatGPT。
但这种评审 + 宣传的方式似乎并不被大家认可。

网友:夸张

在 Twitter 讨论中,有网友表明,这就是夸张的说法。


在此「大」新闻公布后,Vicuna 官方也迅速做出了回应。

实际上,Vicuna 的测试基准已被弃用,现在使用的是更高级的 MT-bench 基准。该基准的测试,有着更加具有挑战性的任务,并且解决了 gpt4 评估中的偏差以及限制。

在 MT-bench 上,OpenChat 性能表现与 wizardlm-13b 相似。也就是说,开源模型与 GPT-3.5 仍然有着一定差距。这也正是 MT-bench 所强调的内容 —— 开源模型不是完美无缺的,但是这将迈向更好的聊天机器人评估。



评估还表明,在任何给定的评估中,最佳模型的平均性能达到 ChatGPT 的 83%、GPT-4 的 68%,这表明需要进一步构建更好的基础模型和指令调优数据以缩小差距。

感兴趣的读者可以查看原文。

公众号后台回复“极市直播”获取100+期极市技术直播回放+PPT

极市干货

极视角动态2023GCVC全球人工智能视觉产业与技术生态伙伴大会在青岛圆满落幕!极视角助力构建城市大脑中枢,芜湖市湾沚区智慧城市运行管理中心上线!
数据集:面部表情识别相关开源数据集资源汇总打架识别相关开源数据集资源汇总(附下载链接)口罩识别检测开源数据集汇总
经典解读:多模态大模型超详细解读专栏

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读919
粉丝0
内容8.2k