北京时间 26 号晚,除了 GPT-4o 在图像生成方面放出大招,Google 也不甘示弱的发布了新模型 Gemini 2.5 pro,并且在各大榜单实现了“屠榜”,在多模态交互,数学科学,编程方面实现“遥遥领先”,跟 Openai 打了一次漂亮的“双响炮”。
目录:
1. Gemini 2.5 pro 实现屠榜?
2. Google 官方实测案例
3. 团队一手实测
3.1 多模态能力测试
3.1.1 微表情测试
3.1.2 三门问题测试
3.2 编程,科学与数学能力测试
3.2.1 编程能力测试
3.2.2 科学能力测试
3.2.3 数学能力测试
4. 总结和期待
01. Gemini 2.5 pro 实现屠榜?
Google 官方在北京时间 26 日晚在 X 上发布了 Gemini 2.5 Pro 发布的公告:
Google 官方发布的信息中,宣称这次 Gemini 2.5 pro 在各类榜单上实现了“屠榜”,Gemini 2.5 Pro 在对话能力榜单 Arena leaderboard 之中实现历史以来的得分最大飞跃,以超过 Grox-3 模型 40 分的成绩目前位居第一名。
详细的对比数据可见上表
Gemini 2.5 Pro Experimental 在许多类别中都取得了排名第一的成绩,特别是在数学、科学、创意写作、指令遵循、较长查询表现突出。
详细的对比数据可见上表
Gemini 2.5 Pro 在 Web 开发领域也表现不俗。在 WebDev Arena 上取得了第二的好成绩。它是第一款与 Claude 3.5 Sonne 相似,比上一代 Gemini 有了巨大的飞跃。
Gemini在WebDev Arena中的排名情况
那么,这次 Gemini 2.5 pro 在实践中表现如何呢?
关注我们,及时获取更多行业内容和资讯!
02. 官方实测
编程与视觉理解大师?
对此,Gemini 官方给出了几个实际的案例:
首先,看看 Gemini 对任务的理解与推理能力如何?
如果让 Gemini 2.5 pro 使用 Plotly Express 创建一个动画气泡图,图上能够显示每个大陆的经济和健康指标如何随时间演变,它会表现如何?
prompt如下:
由此,Gemini 根据指令进行推理后生成了对应的代码:
运行之后,构建出了对应的动画气泡图:图像基本完成了prompt中的任务,色彩的搭配与整体效果的呈现相对客观。
除此之外,Gemini 在游戏理解上也有实例的体现:
让它制作一个吸引人的无尽跑酷游戏。屏幕上要有的关键指令的操作说明,p5js 场景,不要 HTML,并且是像素化的恐龙和有趣的背景。prompt 如下:
之后,Gemini 2.5 pro 完成了这个任务:
并且,Google 同样突出了 2.5 在编程与视觉理解的优势:让 Gemini 2.5 pro 去生成一个旋转的六边体,同时有 30 只色彩斑斓的群体在其中游动,像超新星星云一样。
prompt如下:
进而有了这个魔幻的旋转炫彩六边形:
在 Gemini 2.5 pro 给出的具体实例之中,可以看出 Gemini 2.5 pro 在推理能力与代码能力以及视觉层面上有不错的表现与理解。
目前在 Gemini 2.5 pro 已经在 Google AI Studio 上与 Gemini 的官网/app中直接免费体验!(App与网页中需要是 Gemini advanced 用户)
具体体验链接放在文末,感兴趣的朋友可以自己上手体验下!
03. 一手实测
Gemini 2.5 pro 真这么强?
看了这么多官方的实测,AGI-Eval 大模型评测团队也忍不住测一测看看 Gemini 2.5 pro 的各项能力表现如何?
根据 Google 官方对于 Gemini 2.5 pro 性能的关键信息,此次实测将从:多模态推理、编程、数学三个角度去验证下 Gemini 2.5 pro 的能力。
3.1多模态推理能力测试
3.1.1微表情测试
首先,选取了在人类之中也同样热门的“微表情测试”,以此来检验新旧版模型对于图像的识别理解与推理的能力。
将图片分别发给 Gemini 2.0 Flash 与 Gemini 2.5 pro,并且 prompt 都只有“做出判断”,可以看到 Gemini 2.0 Flash 对于三张图的判断分别是:
图一:期待 图二:开心 图三:愤怒
在图一之中,Gemini 2.0 Flash 对于表情的判断是“期待”,它认为这个图片是“眼睛睁的大大的”,并且是不符合“悲伤的眼睛通常有下垂的眼睑和下垂的眼角。
同样,我们给了相同的图片与 prompt 给 Gemini 2.5 pro,它对于这个图片的判断是:
图一:伤心 图二:开心 图三:愤怒
最大的区别在于对于图一的判断:
Gemini 2.0 Flash 虽然知道“下垂的眼角代表悲伤”,但是还是因为“眼睛睁开的大”来判断为“期待”
Gemini 2.5 pro 根据眉毛的形态与“眼睛亮不亮”的标准来判断出了图一更可能是“伤心”
实际测试来看,Gemini 2.5 pro 对于图像识别方向有一点的提升使得更加准确, Gemini 2.5 Pro 的推理能力更加的强大与全面。
Gemini 2.5 Pro 通过了第一关“微表情测试”并且“击败”了它的上一代 Gemini 2.0。同时也挑起了团队评测人员继续探究 Gemini 2.5 Pro的兴趣,接下我们继续探寻 Gemini 2.5 Pro 对于图像的理解能力到底有多强?
它似乎沉浸在了分析这个图片的编号与画风中,反观 Gemini 2.5 Pro
3.2编程,科学与数学能力测试
让 Gemini 2.5 pro 创建一个交互式可视化的太阳系行星轨道模拟,使用 Python 和 Matplotlib 实现动态模型,展示行星围绕太阳的运行。要求包括计算行星位置的开普勒轨道方程、显示真实比例的太阳和四颗行星,并生成动画效果,由此来区分行星颜色并添加时间指示器。
具体的prompt如上
再经过仅仅 50s 的推理时间,Gemini 2.5 pro 按照以下顺序生成了对应的代码:
最后运行后的效果如下:
在编码上,Gemini 2.5 pro 确实生成了完整的基本符合规律的动画并且能够展示(期间没有任何二次要求),画面的流畅度和视觉效果也不错。
对于各个行星间的运行速度计算与实际轨迹大小基本符合规律,但是忽略了行星轨道大多为椭圆形的问题,并未完美的球形。
04. 总结及期待
Gemini 2.5 Pro 相比 Gemini 2.0 Flash 版本确实在多模态能力上有了一定的提升,多模态的图片理解分析能力与推理能力实测中会比 Gemini 2.0 Flash 的识别效果更好,在编程和逻辑方面的实测结果也比较符合预期,只是在运行速度和计算中还是可以看到一些瑕疵。
当然,以上内容只是小小的测试,让大家对此次发布的 Gemini 2.5 pro 有一些基础认识和能力感受,后续我们平台将推出更全更完整的评测报告,考察 Gemini 2.5 多维度的能力提升情况。报告还没有出来的时候大家也可以看看我们往期关于 DeepSeek及Sora的评测。
附带过往的评测报告链接查看:
1.【AGI-Eval评测报告 NO.3】第一手实测GPT-4o文生图能力!最权威报告输出
2.【AGI-Eval评测报告 NO.2】DeepSeek V3-0324抢先评测!最全报告输出
3.【AGI-Eval评测报告 NO.1】DeepSeek 三大类型模型全面评测,通用及推理模型实现领跑,多模态位于第三梯队
最后,具体能力如何大家可以自己动起手来测评,体验一下Gemini2.5pro的魅力,有什么趣味测试内容也欢迎来我们官方投稿分享,有趣的测试内容我们也会给予大家报酬哦~
试玩链接:
https://aistudio.google.com/prompts/new_chat?model=gemini-2.5-pro-exp-03-25&hl=zh-cn&_gl=1*1twgeu8*_ga*MTg1MDYzMzY2Ny4xNzQzMDAzNDMw*_ga_P1DBVKWT6V*MTc0MzAwMzQzMC4xLjEuMTc0MzAwMzQ0NS40NS4wLjEzMTIzNTY1NzM.
>/ 投稿:阿豹Hokeem
>/ 联系AGI-Eval小助手:请添加微信 AI_Ceping
>/ 投稿请联系邮箱:agieval17@gmail.com
最后,如果你也喜欢这篇文章,那就点赞转发收藏吧~下一期继续为你带来使用干货,别忘了关注我们!
我们也在探索Agent能力评测的新方式,同时文末也期待大家参与我们社群,一起探寻 AGI 的更多可能性,发现更多不一样的视角,提出问题才有机会解决问题。

