

2025 AI 大模型年终盘点：谷歌反超，国产爆发，三大榜单一文看懂！

AI信息Gap

2026-01-01

导读：新年快乐！2026 年第一天，盘点过去一年的 AI 大模型格局。

2026年第一天，盘点2025年全球大模型格局。

本文汇总LMArena、LiveBench、Artificial Analysis三大权威平台截至2025年12月底的最新排名。

数据量大，先看结论：

谷歌Gemini 3成功逆袭，包揽文本对话与多模态双料冠军；OpenAIGPT-5系列表现不及预期，仅勉强守住推理与搜索阵地；AnthropicClaude Opus 4.5在代码与智能体任务上持续领先。

国产大模型成为2025年最大亮点。

01｜三大榜单，各测什么？

LMArena（原Chatbot Arena）由加州大学伯克利分校LMSYS团队开发，采用Elo评分系统，依赖超500万次真人匿名投票，被公认为AI领域“黄金标准”。当前细分Text Arena（文本对话）、WebDev（网页开发）、Vision（视觉理解）、Text-to-Image（文生图）、Image Edit（图像编辑）、Search（搜索能力）等专项榜单。

LiveBench是经ICLR 2025收录的学术基准测试，每月更新题目，来源涵盖AMC/AIME/IMO数学竞赛、arXiv论文及主流新闻，所有问题均设客观标准答案，规避“AI评AI”的偏差。

Artificial Analysis为独立评测机构，其最新Intelligence Index v3.0整合知识、推理、数学、编程、指令遵循、长文本理解、智能体任务等10项维度，输出综合能力指数。

三者互补：LMArena测真人偏好，LiveBench测客观能力，Artificial Analysis测综合智商。

02｜文本对话：谷歌Gemini 3登顶

Text Arena是LMArena核心榜单，截至12月30日累计投票近500万。

榜首为谷歌gemini-3-pro（1490分），第二名为同系gemini-3-flash（1480分）。xAIgrok-4.1-thinking以1477分居第三；Anthropicclaude-opus-4-5系列分列第四、五位（1470分、1467分）；OpenAIgpt-5.1-high位列第八（1458分）。相较2024年被压制态势，Gemini实现全面翻盘。

03｜前端代码：Claude继续称王

WebDev Leaderboard评估模型前端代码生成能力，截至12月29日累计投票8万。

Anthropicclaude-opus-4-5-20251101-thinking-32k以1512分断层领先，领先第二名OpenAIgpt-5.2-high（1480分）32分。第三名为另一款Claude模型（1479分），谷歌gemini-3-pro以1471分排第四。

国产模型强势入围全球前十：MiniMaxminimax-m2.1-preview（1445分，第六）、智谱glm-4.7（1441分，第七）。

04｜视觉理解：谷歌继续碾压

Vision Arena测试多模态图像理解能力，截至12月16日累计投票57万。

前三均为谷歌模型：gemini-3-pro（1309分）、gemini-3-flash（1284分）、gemini-3-flash (thinking-minimal)（1268分）。OpenAIgpt-5.1-high以1249分位列第四。多模态赛道谷歌优势显著。

05｜图像生成与编辑：字节杀进全球前五

Text-to-Image Arena榜单中，OpenAIgpt-image-1.5以1264分居首，谷歌Nano Banana Pro以1235分次之，Black Forest LabsFlux 2系列占四至七位。国产模型中，腾讯hunyuan-image-3.0（1152分，第八）、字节seedream-4.5（1147分，第十）上榜。

Image Edit Arena中，字节表现更突出：seedream-4.5（1327分，第五）、seedream-4-2k（1312分，第七）、seedream-4-high-res-fal（1246分，第十）。字节包揽该榜单前十中的三席，国产模型已跻身图像生成与编辑全球第一梯队。

06｜搜索能力：谷歌 vs OpenAI

Search Arena评估联网搜索能力，截至12月17日累计投票12万。

谷歌gemini-3-pro-grounding（Gemini 3 Pro搜索模式）以1214分居首；OpenAIgpt-5.2-search以1211分紧随其后，仅差3分；gpt-5.1-search以1201分排第三。xAIGrok系列占四至六位，Perplexityppl-sonar-reasoning-pro-high以1147分位列第六。谷歌长期积累的搜索优势正面临OpenAI强力挑战。

07｜LiveBench：硬核推理

LiveBench采用百分制，覆盖推理、数学、编程、数据分析、语言理解及指令遵循六大类，题目难度高、每月更新，专治“刷榜”行为。

AnthropicClaude 4.5 Opus Thinking High Effort以76.20分夺冠；OpenAIGPT-5.1 Codex Max以75.63分次之；谷歌Gemini 3 Pro Preview High以75.22分位列第三。国产模型中，DeepSeekV3.2 Thinking（66.22分，第十二）、月之暗面Kimi K2 Thinking（65.59分，第十三）进入榜单。顶尖模型正确率仅70%出头，凸显测试难度。需说明的是，LiveBench更新较慢，部分国产新模型尚未参评。

08｜Artificial Analysis：智能体成新战场

Artificial AnalysisIntelligence Index v3.0通过加权整合10项评估形成综合指数。

总榜中，谷歌Gemini 3 Pro Preview与OpenAIGPT-5.2并列第一（73分）；Gemini 3 Flash以71分居第三；Claude Opus 4.5与GPT-5.1同为70分，并列第四。国产模型表现亮眼：智谱GLM-4.7（68分，第六）、月之暗面Kimi K2 Thinking（67分，第七）、小米MiMo-V2-Flash（66分，第九）、DeepSeekV3.2（66分，第十）。

Coding Index（编程能力）榜中，谷歌Gemini 3 Pro与OpenAIGPT-5.2并列第一（62分）；Claude Opus 4.5以60分位列第三。国产方面，GLM-4.7（55分）、DeepSeek V3.2（53分）、Kimi K2 Thinking（52分）、MiMo-V2-Flash（51分）。

Agentic Index（智能体能力）为2025年新增赛道，聚焦复杂多步骤任务执行能力。Claude Opus 4.5以67分居首；GPT-5.2（64分）次之；Gemini 3 Pro与智谱GLM-4.7同为63分，并列第三；DeepSeek V3.2（62分）、Kimi K2与MiMo-V2-Flash（均为61分）分列第六、第七。智谱距榜首仅差4分，国产智能体能力已站上全球第一梯队起点。