一、引言
北京时间3月26日凌晨,谷歌最新推出的Gemini 2.5 Pro Experimental,刚刚被誉为迄今为止最先进的 AI 模型。作为谷歌寄予厚望的“思考模型”系列的首发成员,它带来了高达100万 Token 的上下文窗口和一系列令人瞩目的性能提升。这相当于:它能一次性处理相当于两本《红楼梦》字数的文本量。
在“人类的最后考试”测试中,它获得了18.8%的最高分数,这是目前为止所有未使用(外接工具)的大模型中最好的成绩。“人类最后的考试”是一个由全球近千名专家共同设计的多模态基准测试,旨在评估大型语言模型的能力极限。该测试包含3000道涵盖数学、人文学科和自然科学等多个领域的前沿问题。

在大模型竞技场测试中,Gemini 2.5 Pro也以创纪录的优势拔得头筹,创下了历史最大的分数跨越,比Grok-3和GPT-4.5高出40多分。

谷歌Deepmind 首席科学家 Jeff Dean在博客中写道:“我们的 Gemini 2.5 Pro 模型比 Gemini 2.0 系列有了显着改进。很高兴看到它以相当可观的优势在 LiveBench 排行榜上名列前茅。”

二、优势十足的Gemini 2.5 Pro Experimental 带来什么方面的跃迁?
Part 1
推理能力Pro Max版
谷歌官网表示,Gemini 2.5 Pro 在一系列需要高级推理的基准测试中处于领先地位。如果没有多数投票等增加成本的考试时技术,2.5 Pro 在 GPQA 和 AIME 2025 等数学和科学基准测试中处于领先地位。

例如,我们可以通过文本提示构建 QED 的派生以及详细的学习笔记:
@Dr.Novo:Gemini 2.5 pro 刚刚帮助我用 LaTex 完成了我 15 页的研究论文,关于“理解连续到离散神经转换的混合模型”,逐字逐句!这为我节省了数小时的汗水!我尝试了所有其他模型,它们都在20%任务进度的时候失败了……

Part 2
编码能力Pro Max版
谷歌官方称,Gemini 2.5 Pro Experimental版本在2.0版本的基础上实现了巨大飞跃,未来还会有更多改进。2.5 Pro 擅长创建视觉上引人注目的 Web 应用程序和代理代码应用程序,以及代码转换和编辑。在代理代码评估的行业标准 SWE-Bench Verified 中,Gemini 2.5 Pro 在自定义代理设置下的得分为 63.8%。
具体来说,2.5 Pro 能够通过从单行提示符生成可执行代码来使用其推理功能创建视频游戏。
Jeff Dean在Twitter上同样发文展示了Gemini 2.5 Pro 模型在提示“p5js 探索曼德布洛特集”下编写的代码:
三、2.5 Pro一键使用手册
总的来说,2.5 Pro能精准捕捉显性指令并执行,具备构建完整网站架构的能力。
要想简单高效地使用2.5 Pro,可以直接通过以下三个途径:
1、Google官方:http://aistudio.google.com/app/prompts/new_chat?model=gemini-2.5-pro-exp-03-25
2、Shirt AI:https://www.myshirtai.com/signup
3、API调用:https://api.mygptmeta.com/
凑巧的是,Deepseek v3.1和2.5 Pro的发布时间几乎只间隔了30小时。不少网友将其做了对比:
我们同时要求两个模型“编写一个 html 脚本,说明球在旋转的 4D tesseract 中弹跳。当球触及一侧时,高亮显示该侧。”在实际展现效果上,两个模型各有其特点,都能准确地完成用户指令。但是相较之下,2.5 Pro的风格更加简约,可视性做得会更好。
不同的工作场景、学习场景的要求不同,我们可以根据细节选择最为合适的模型以提高生产力。

如果想要使用Gemini 2.5 Pro、GPT Plus、Claude Pro、Grok Super官方付费独享账户的,自己不会充值可以联系我们专业团队(wx:f15303420735)

