大数跨境
0
0

谷歌和OpenAI杠上了!谷歌Gemini-exp-1121重回榜首!

谷歌和OpenAI杠上了!谷歌Gemini-exp-1121重回榜首! 软积木
2024-11-22
0
导读:刚发布的Gemini-exp-1121以1365分的Arena得分超越了OpenAI的4o,重回榜首。
最近几天,谷歌和OpenAI之间的竞争进入白热化阶段。
昨天,在Chatbot Arena的对决中,GPT-4o击败了Google的Gemini-Exp-1114,重夺榜首位置。
而今天,刚发布的Gemini-exp-1121以1365分的Arena得分超越了OpenAI的4o,重回榜首。

01

谷歌Gemini更新了什么
让人难以置信的是,该版本在除样式以外的所有评估参数中均领先。
对于不了解这些分数如何计算的用户,可以简单理解为一种双盲测试机制。
用户在Arena平台上可以提出任何问题,例如“单词‘research’中有几个字母 R”,然后系统将问题分别交给两个模型处理,用户根据答案进行投票。
Gemini的进步尤为显著。它在除样式外的所有类别中表现优异,包括困难问题、编码、数学、创意写作、长文本处理和多轮对话等。
对比一周前发布的Gemini exp 1114,新版表现出色,甚至超过了11月20日发布的ChatGPT-4。

02

Gemini和GPT-4o
谷歌Gemini的另一个亮点是它的高质量上下文窗口:32,000 tokens。
相比之下,ChatGPT-4o则在创意写作和复杂对话方面表现优异。
这边神仙打架,那边“阴阳师”上线。
Claude表示:Claude在真正重要的事情上做得更好,而其他实验室(谷歌和OpenAI)则在Markdown产出上竞争。
Claude团队今天也发布了新产品:Anthropic Admin API。
现在,用户可以通过编程方式管理整个Anthropic组织 - 从用户和工作区到API密钥和计费。
不过,无论如何,这场AI模型之争的核心价值在于,它们不断推动技术向前发展,并为用户提供了更多选择。
Google和OpenAI还允许用户直接访问这些模型,通过如Google AI Studio等平台进行体验,为排行榜的实际意义提供了保障。
END

ChatU可免费申请试用,支持企业私有部署,多引擎AIGC操作系统安全稳定,点击下方公众号一键试用!

【声明】内容源于网络
0
0
软积木
🤖专注AI前沿干货分享 🌎AI原生应用触手可及·开启企业无限智能 💻官网:https://www.CubixAI.com 📮商务合作:BD@cubixai.com
内容 157
粉丝 0
软积木 🤖专注AI前沿干货分享 🌎AI原生应用触手可及·开启企业无限智能 💻官网:https://www.CubixAI.com 📮商务合作:BD@cubixai.com
总阅读92
粉丝0
内容157