大数跨境
0
0

【AGI-Eval 行业动态 NO.8】Gemini 2.5 Pro “屠榜”?一手实测“看看实力”

【AGI-Eval 行业动态 NO.8】Gemini 2.5 Pro “屠榜”?一手实测“看看实力” AGI-Eval大模型评测
2025-03-28
1
导读:来看 Gemini 2.5 pro 一手实测!

北京时间 26 号晚,除了 GPT-4o 在图像生成方面放出大招,Google 也不甘示弱的发布了新模型 Gemini 2.5 pro,并且在各大榜单实现了“屠榜”,在多模态交互,数学科学,编程方面实现“遥遥领先”,跟 Openai 打了一次漂亮的“双响炮”。

目录:

1. Gemini 2.5 pro 实现屠榜?

2. Google 官方实测案例

3. 团队一手实测

    3.1 多模态能力测试

       3.1.1 微表情测试

       3.1.2 三门问题测试

    3.2 编程,科学与数学能力测试

       3.2.1 编程能力测试

       3.2.2 科学能力测试

       3.2.3 数学能力测试

4. 总结和期待


01. Gemini 2.5 pro 实现屠榜?

Google 官方在北京时间 26 日晚在 X 上发布了 Gemini 2.5 Pro 发布的公告:

Google 官方发布的信息中,宣称这次 Gemini 2.5 pro 在各类榜单上实现了“屠榜”,Gemini 2.5 Pro 在对话能力榜单 Arena leaderboard 之中实现历史以来的得分最大飞跃,以超过 Grox-3 模型 40 分的成绩目前位居第一名。

详细的对比数据可见上表

Gemini 2.5 Pro Experimental 在许多类别中都取得了排名第一的成绩,特别是在数学、科学、创意写作、指令遵循、较长查询表现突出。

详细的对比数据可见上表

Gemini 2.5 Pro 在 Web 开发领域也表现不俗。在 WebDev Arena 上取得了第二的好成绩。它是第一款与 Claude 3.5 Sonne 相似,比上一代 Gemini 有了巨大的飞跃。

Gemini在WebDev Arena中的排名情况

那么,这次 Gemini 2.5 pro 在实践中表现如何呢?


关注我们,及时获取更多行业内容和资讯!


02. 官方实测

编程与视觉理解大师?

对此,Gemini 官方给出了几个实际的案例:

首先,看看 Gemini 对任务的理解与推理能力如何?

如果让 Gemini 2.5 pro 使用 Plotly Express 创建一个动画气泡图,图上能够显示每个大陆的经济和健康指标如何随时间演变,它会表现如何?

prompt如下:

由此,Gemini 根据指令进行推理后生成了对应的代码:

运行之后,构建出了对应的动画气泡图:图像基本完成了prompt中的任务,色彩的搭配与整体效果的呈现相对客观。

除此之外,Gemini 在游戏理解上也有实例的体现:

让它制作一个吸引人的无尽跑酷游戏。屏幕上要有的关键指令的操作说明,p5js 场景,不要 HTML,并且是像素化的恐龙和有趣的背景。prompt 如下:

之后,Gemini 2.5 pro 完成了这个任务:

并且,Google 同样突出了 2.5 在编程与视觉理解的优势:让 Gemini 2.5 pro 去生成一个旋转的六边体同时有 30 只色彩斑斓的群体在其中游动,像超新星星云一样。

prompt如下:

进而有了这个魔幻的旋转炫彩六边形:

在 Gemini 2.5 pro 给出的具体实例之中,可以看出 Gemini 2.5 pro 在推理能力与代码能力以及视觉层面上有不错的表现与理解。

目前在 Gemini 2.5 pro 已经在 Google AI Studio 上与 Gemini 的官网/app中直接免费体验!(App与网页中需要是 Gemini advanced 用户)

具体体验链接放在文末,感兴趣的朋友可以自己上手体验下!


03. 一手实

Gemini 2.5 pro 真这么强?

看了这么多官方的实测,AGI-Eval 大模型评测团队也忍不住测一测看看 Gemini 2.5 pro 的各项能力表现如何?

根据 Google 官方对于 Gemini 2.5 pro 性能的关键信息,此次实测将从:多模态推理、编程、数学三个角度去验证下 Gemini 2.5 pro 的能力。


3.1多模态推理能力测试

3.1.1微表情测试

首先,选取了在人类之中也同样热门的微表情测试”,以此来检验新旧版模型对于图像的识别理解与推理的能力。

将图片分别发给 Gemini 2.0 Flash 与 Gemini 2.5 pro,并且 prompt 都只有“做出判断”,可以看到 Gemini 2.0 Flash 对于三张图的判断分别是:

图一:期待   图二:开心   图三:愤怒

在图一之中,Gemini 2.0 Flash 对于表情的判断是“期待”它认为这个图片是“眼睛睁的大大的”,并且是不符合“悲伤的眼睛通常有下垂的眼睑和下垂的眼角。

同样,我们给了相同的图片与 prompt 给 Gemini 2.5 pro,它对于这个图片的判断是:

图一:伤心   图二:开心   图三:愤怒

最大的区别在于对于图一的判断:

  • Gemini 2.0 Flash 虽然知道“下垂的眼角代表悲伤”,但是还是因为“眼睛睁开的大”来判断为“期待”

  • Gemini 2.5 pro 根眉毛的形态与“睛亮不亮”的标准来判断出了图一更可能是“伤心”


实际测试来看,Gemini 2.5 pro 对于图像识别方向有一点的提升使得更加准确, Gemini 2.5 Pro 的推理能力更加的强大与全面。

Gemini 2.5 Pro 通过了第一关“微表情测试”并且“击败”了它的上一代 Gemini 2.0。同时也挑起了团队评测人员继续探究 Gemini 2.5 Pro的兴趣,接下我们继续探寻 Gemini 2.5 Pro 对于图像的理解能力到底有多强?


3.1.2 三门问题测试
这是一个经典的蒙提霍尔问题,但是我们觉得单单考这个还不够,去掉了其中的文字介绍部分
直接把这个图片+“解决这个问题”的 prompt 给了大模型。首先给了 GPT-4o mini

它似乎沉浸在了分析这个图片的编号与画风中,反观 Gemini 2.5 Pro

它准确识别出了这是蒙提霍尔问题并且给出了相对合理的解释,可以说是非常的“有想法”了,它对于图片理解后的推理能力也是不错的。

3.2编程,科学与数学能力测试

3.2.1 编程能力测试
首先考察 Gemini 2.5 Pro 编程能力,让它去设计一个经典的吃豆人游戏,我们给出了任务与具体的要求如下:
70S 后,Gemini 2.5 Pro 给出了完整的HTML的代码,运行后基本满足了要求,可玩性稳定性视觉感兼顾。对于分数的计算也非常合理,碰到幽灵时的结算分数也正确,除了转向的时候嘴的方向不会动,细节处理可能存在一些忽视。

3.2.2 科学能力测试

让 Gemini 2.5 pro 创建一个交互式可视化的太阳系行星轨道模拟使用 Python 和 Matplotlib 实现动态模型,展示行星围绕太阳的运行。要求包括计算行星位置的开普勒轨道方程、显示真实比例的太阳和四颗行星,并生成动画效果,由此来区分行星颜色并添加时间指示器。

具体的prompt如上

再经过仅仅 50s 的推理时间,Gemini 2.5 pro 按照以下顺序生成了对应的代码:

最后运行后的效果如下:

在编码上,Gemini 2.5 pro 确实生成了完整的基本符合规律的动画并且能够展示(期间没有任何二次要求),画面的流畅度视觉效果也不错。

对于各个行星间的运行速度计算与实际轨迹大小基本符合规律,但是忽略了行星轨道大多为椭圆形的问题,并未完美的球形。


3.2.3 数学能力测试
这里找到了一篇中科院博士研究生代数考题
仅仅用了 30S,Gemini 2.5 Pro 就给出了答案
看来基础计算难不倒它,数学脑筋急转弯总可以吧!于是问了一个反直觉的数学题
可惜只用了 10S 就被 Gemini2.5 Pro 识破了...
数学对于 Gemini 2.5 Pro 真的是“基础题”了,也没有难倒它!

04. 总结及期待

Gemini 2.5 Pro 相比 Gemini 2.0 Flash 版本确实在多模态能力上有了一定的提升,多模态的图片理解分析能力推理能力实测中会比 Gemini 2.0 Flash 的识别效果更好,在编程和逻辑方面的实测结果也比较符合预期,只是在运行速度和计算中还是可以看到一些瑕疵。

当然,以上内容只是小小的测试,让大家对此次发布的 Gemini 2.5 pro 有一些基础认识和能力感受,后续我们平台将推出更全更完整的评测报告,考察 Gemini 2.5 多维度的能力提升情况。报告还没有出来的时候大家也可以看看我们往期关于 DeepSeekSora的评测。

 AGI-Eval团队:AI视频生成模型年度横评,Sora大饼落地,但国产模型仍然领先!

附带过往的评测报告链接查看:

1.【AGI-Eval评测报告 NO.3】第一手实测GPT-4o文生图能力!最权威报告输出

2.【AGI-Eval评测报告 NO.2】DeepSeek V3-0324抢先评测!最全报告输出

3.【AGI-Eval评测报告 NO.1】DeepSeek 三大类型模型全面评测,通用及推理模型实现领跑,多模态位于第三梯队


最后,具体能力如何大家可以自己动起手来测评,体验一下Gemini2.5pro的魅力,有什么趣味测试内容也欢迎来我们官方投稿分享,有趣的测试内容我们也会给予大家报酬哦~

试玩链接:

https://aistudio.google.com/prompts/new_chat?model=gemini-2.5-pro-exp-03-25&hl=zh-cn&_gl=1*1twgeu8*_ga*MTg1MDYzMzY2Ny4xNzQzMDAzNDMw*_ga_P1DBVKWT6V*MTc0MzAwMzQzMC4xLjEuMTc0MzAwMzQ0NS40NS4wLjEzMTIzNTY1NzM.

>/ 投稿:阿豹Hokeem

>/ 联系AGI-Eval小助手:请添加微信 AI_Ceping

>/ 投稿请联系邮箱agieval17@gmail.com

最后,如果你也喜欢这篇文章,那就点赞转发收藏吧~下一期继续为你带来使用干货,别忘了关注我们!


往期回顾
1.【AGI-Eval行业动态 NO.6】Manus爆火48小时:一场关于AI未来的“乐观”与“警惕”
2.【AGI-Eval行业动态 NO.5】今年太卷了,30+的模型已发布,还有10款模型即将发布!
3.【AGI-Eval行业动态 NO.4】Claude 3.7 Sonnet将模型行业卷向了新高度,但背后仍然还有新的问题

我们也在探索Agent能力评测的新方式,同时文末也期待大家参与我们社群,一起探寻 AGI 的更多可能性发现更多不一样的视角,提出问题才有机会解决问题。

image.jpeg
图片

点击“阅读原文”可跳转至官网玩耍~
未经「AGI-Eval大模型评测」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AGI-Eval大模型评测」后台留言取得授权,转载时需标注来源并插入本公众号名片。


【声明】内容源于网络
0
0
AGI-Eval大模型评测
AGI-Eval是上海交通大学、同济大学、华东师范大学、DataWhale等高校和机构合作发布的大模型评测社区,旨在打造公正、可信、科学、全面的评测生态以“评测助力,让AI成为人类更好的伙伴"为使命。
内容 62
粉丝 0
AGI-Eval大模型评测 AGI-Eval是上海交通大学、同济大学、华东师范大学、DataWhale等高校和机构合作发布的大模型评测社区,旨在打造公正、可信、科学、全面的评测生态以“评测助力,让AI成为人类更好的伙伴"为使命。
总阅读60
粉丝0
内容62