2026年第一天,盘点2025年全球大模型格局。
本文汇总LMArena、LiveBench、Artificial Analysis三大权威平台截至2025年12月底的最新排名。
数据量大,先看结论:
谷歌
Gemini 3成功逆袭,包揽文本对话与多模态双料冠军;OpenAIGPT-5系列表现不及预期,仅勉强守住推理与搜索阵地;AnthropicClaude Opus 4.5在代码与智能体任务上持续领先。
国产大模型成为2025年最大亮点。
01|三大榜单,各测什么?
LMArena(原Chatbot Arena)由加州大学伯克利分校LMSYS团队开发,采用Elo评分系统,依赖超500万次真人匿名投票,被公认为AI领域“黄金标准”。当前细分Text Arena(文本对话)、WebDev(网页开发)、Vision(视觉理解)、Text-to-Image(文生图)、Image Edit(图像编辑)、Search(搜索能力)等专项榜单。
LiveBench是经ICLR 2025收录的学术基准测试,每月更新题目,来源涵盖AMC/AIME/IMO数学竞赛、arXiv论文及主流新闻,所有问题均设客观标准答案,规避“AI评AI”的偏差。
Artificial Analysis为独立评测机构,其最新Intelligence Index v3.0整合知识、推理、数学、编程、指令遵循、长文本理解、智能体任务等10项维度,输出综合能力指数。
三者互补:LMArena测真人偏好,LiveBench测客观能力,Artificial Analysis测综合智商。
02|文本对话:谷歌Gemini 3登顶
Text Arena是LMArena核心榜单,截至12月30日累计投票近500万。
榜首为谷歌gemini-3-pro(1490分),第二名为同系gemini-3-flash(1480分)。xAIgrok-4.1-thinking以1477分居第三;Anthropicclaude-opus-4-5系列分列第四、五位(1470分、1467分);OpenAIgpt-5.1-high位列第八(1458分)。相较2024年被压制态势,Gemini实现全面翻盘。
03|前端代码:Claude继续称王
WebDev Leaderboard评估模型前端代码生成能力,截至12月29日累计投票8万。
Anthropicclaude-opus-4-5-20251101-thinking-32k以1512分断层领先,领先第二名OpenAIgpt-5.2-high(1480分)32分。第三名为另一款Claude模型(1479分),谷歌gemini-3-pro以1471分排第四。
国产模型强势入围全球前十:MiniMaxminimax-m2.1-preview(1445分,第六)、智谱glm-4.7(1441分,第七)。
04|视觉理解:谷歌继续碾压
Vision Arena测试多模态图像理解能力,截至12月16日累计投票57万。
前三均为谷歌模型:gemini-3-pro(1309分)、gemini-3-flash(1284分)、gemini-3-flash (thinking-minimal)(1268分)。OpenAIgpt-5.1-high以1249分位列第四。多模态赛道谷歌优势显著。
05|图像生成与编辑:字节杀进全球前五
Text-to-Image Arena榜单中,OpenAIgpt-image-1.5以1264分居首,谷歌Nano Banana Pro以1235分次之,Black Forest LabsFlux 2系列占四至七位。国产模型中,腾讯hunyuan-image-3.0(1152分,第八)、字节seedream-4.5(1147分,第十)上榜。
Image Edit Arena中,字节表现更突出:seedream-4.5(1327分,第五)、seedream-4-2k(1312分,第七)、seedream-4-high-res-fal(1246分,第十)。字节包揽该榜单前十中的三席,国产模型已跻身图像生成与编辑全球第一梯队。
06|搜索能力:谷歌 vs OpenAI
Search Arena评估联网搜索能力,截至12月17日累计投票12万。
谷歌gemini-3-pro-grounding(Gemini 3 Pro搜索模式)以1214分居首;OpenAIgpt-5.2-search以1211分紧随其后,仅差3分;gpt-5.1-search以1201分排第三。xAIGrok系列占四至六位,Perplexityppl-sonar-reasoning-pro-high以1147分位列第六。谷歌长期积累的搜索优势正面临OpenAI强力挑战。
07|LiveBench:硬核推理
LiveBench采用百分制,覆盖推理、数学、编程、数据分析、语言理解及指令遵循六大类,题目难度高、每月更新,专治“刷榜”行为。
AnthropicClaude 4.5 Opus Thinking High Effort以76.20分夺冠;OpenAIGPT-5.1 Codex Max以75.63分次之;谷歌Gemini 3 Pro Preview High以75.22分位列第三。国产模型中,DeepSeekV3.2 Thinking(66.22分,第十二)、月之暗面Kimi K2 Thinking(65.59分,第十三)进入榜单。顶尖模型正确率仅70%出头,凸显测试难度。需说明的是,LiveBench更新较慢,部分国产新模型尚未参评。
08|Artificial Analysis:智能体成新战场
Artificial AnalysisIntelligence Index v3.0通过加权整合10项评估形成综合指数。
总榜中,谷歌Gemini 3 Pro Preview与OpenAIGPT-5.2并列第一(73分);Gemini 3 Flash以71分居第三;Claude Opus 4.5与GPT-5.1同为70分,并列第四。国产模型表现亮眼:智谱GLM-4.7(68分,第六)、月之暗面Kimi K2 Thinking(67分,第七)、小米MiMo-V2-Flash(66分,第九)、DeepSeekV3.2(66分,第十)。
Coding Index(编程能力)榜中,谷歌Gemini 3 Pro与OpenAIGPT-5.2并列第一(62分);Claude Opus 4.5以60分位列第三。国产方面,GLM-4.7(55分)、DeepSeek V3.2(53分)、Kimi K2 Thinking(52分)、MiMo-V2-Flash(51分)。
Agentic Index(智能体能力)为2025年新增赛道,聚焦复杂多步骤任务执行能力。Claude Opus 4.5以67分居首;GPT-5.2(64分)次之;Gemini 3 Pro与智谱GLM-4.7同为63分,并列第三;DeepSeek V3.2(62分)、Kimi K2与MiMo-V2-Flash(均为61分)分列第六、第七。智谱距榜首仅差4分,国产智能体能力已站上全球第一梯队起点。
09|2026怎么选?
日常对话、搜索、信息整合及多模态理解,推荐进步显著的Gemini或用户规模达8亿的ChatGPT;受限场景可选用豆包或千问。
前端开发优先选择Claude,后端或复杂任务亦可考虑GPT,也可直接采用GLM-4.7、MiniMax M2.1或Kimi K2。
复杂自动化任务,Claude目前仍处领先地位,但国产模型的Agentic能力已具备实操价值。
图像生成领域,OpenAI(英文场景)与谷歌暂居前列,字节Seedream已具备全球竞争力。
2026年,智能体(AI Agent)仍是核心主战场之一。
新年快乐。

