

中国顶级模型全面崛起,Llama迷失,OpenAI失去领先地位
智东西1月4日报道,开源工具Datasette创建者、Django框架联合创始人Simon Willison于2025年12月31日发布年终总结,系统回顾当年大模型领域十大趋势与关键转折点。
推理之年
OpenAI于2024年9月发布o1系列,开启“推理”范式革命;2025年初推出o3、o3-mini及o4-mini,强化多步推演能力。此后,推理成为主流AI实验室模型的标配功能。
Andrej Karpathy指出:通过在数学/编程等可自动验证任务中训练低学习率模型(LLM),模型可自发发展出类人推理策略——将问题拆解为中间步骤,并反复推演直至求解。
推理模型显著提升工具调用能力:可规划多步骤任务、执行操作、分析结果并动态调整方案。其在AI辅助搜索、代码生成与深度调试方面表现突出,能逐层穿透复杂代码库定位根本缺陷。
Agent之年
当定义agent为“可通过多步骤调用工具完成实际任务的LLM系统”时,其已真实落地并展现高价值。
主流agent分为两大类:搜索型与编程型。其中,“编程agent”影响深远——可编写、执行、验证并迭代代码,形成闭环开发流程。
编程Agent和Claude Code之年
2025年2月,Anthropic在Claude 3.7 Sonnet公告中低调发布Claude Code,成为首个成熟编程agent产品。
主流编程agent工具包括:Claude Code、Codex CLI、Gemini CLI、Qwen Code、Mistral Vibe;开源生态覆盖GitHub Copilot CLI、Amp、OpenCode、OpenHands CLI及Pi等。
异步编程agent(如Claude Code for Web、Codex Cloud)依托云端沙箱运行,规避本地安全风险,支持并发任务处理,效率显著优于本地执行。
命令行LLM之年
CLI成为开发者高频使用场景。强大模型+适配工具链后,终端LLM获得广泛接受;LLM亦可自动生成sed、ffmpeg、bash等复杂命令,降低使用门槛。
截至2025年12月2日,Claude Code年化收入已达10亿美元,印证命令行AI工具的商业可行性。
YOLO与偏差正常化之年
多数编程agent默认启用严格确认机制,以防范误删文件或提示注入攻击;而“YOLO模式”(--dangerously-bypass-approvals-and-sandbox)允许免确认执行,仅适用于云端沙箱环境。
安全研究员Johann Rehberger提出“偏差正常化”概念:反复接触无后果的危险行为,将导致组织低估风险。该现象警示AI系统若长期绕过安全约束,或将引发类似“挑战者号”灾难的系统性失效。
每月200美元订阅服务之年
Claude Pro Max 20x(200美元/月)、ChatGPT Pro(200美元/月)、Google AI Ultra(249美元/月)构成新定价标杆。
高价套餐对高频用户更具性价比:Claude Code、Codex CLI等工具在处理复杂任务时token消耗激增,固定额度套餐反而提供显著成本优势。
中国顶级无差别级模型之年
2025年中国AI实验室实现跨越式突破:GLM-4.7、Kimi K2 Thinking、MiMo-V2-Flash、DeepSeek V3.2、MiniMax-M2.1等开源模型包揽AI分析榜前五;非中国模型最高仅列第六(OpenAI gpt-oss-120B)。
DeepSeek R1于2025年1月发布,训练成本约550万美元,引发全球AI/半导体市场震荡,英伟达单日市值蒸发5930亿美元。
主流中国模型均采用OSI批准许可证完全开源:Qwen系列用Apache 2.0,DeepSeek与智谱用MIT许可,部分性能已达Claude 4 Sonnet与GPT-5水准。
漫长任务之年
METR测试显示:2025年顶尖模型(GPT-5、GPT-5.1 Codex Max、Claude Opus 4.5)已能独立完成需人类耗时数小时的软件工程任务,相较2024年最佳模型(<30分钟)实现数量级跃升。
METR结论称“AI可执行任务长度每7个月翻倍”,凸显agent长程规划与持续执行能力的快速演进。
提示驱动图像编辑之年
2025年3月,OpenAI在ChatGPT中上线图像编辑功能:用户上传图片后,通过自然语言提示实现精准修改。该功能一周内新增注册用户1亿,高峰时单小时新增百万账户。
Qwen于8月发布Qwen-Image-Edit,支持消费级硬件本地运行;谷歌推出Nano Banana(Gemini 2.5 Flash Image),在文本生成与图像编辑精度上居行业领先,11月升级为Nano Banana Pro,具备专业级信息图表生成能力。
年度模型在学术竞赛中荣获金奖
2025年7月,OpenAI与Google Gemini推理模型在国际数学奥林匹克竞赛(IMO)中斩获金牌。所有题目均为全新原创,未出现在训练数据中,且模型未调用外部工具,纯靠内部知识与token级推理完成。
同年9月,二者在国际大学生程序设计竞赛(ICPC)中再度夺冠,题目同样全为未公开新题;模型可访问代码执行环境,但禁止联网。
Llama迷失之年
Llama 4发布后反响平淡:测试版与正式版性能不符;Scout(109B)与Maverick(400B)体积过大,无法在64GB Mac量化运行;2T Behemoth版本疑似被弃用。
LM Studio与Ollama平台热门榜单中,Meta模型集体缺席,Llama 3.1排名大幅下滑。Meta全年AI焦点转向内部人才争夺与超级智能实验室建设,开源路线前景不明。
OpenAI失去领先地位之年
2025年,OpenAI在多个维度面临强力挑战:图像能力落后Nano Banana Pro;代码能力被Opus 4.5小幅超越;开源模型gpt-oss已被中国顶级模型反超;音频领域受Gemini Live API冲击。
其核心优势仍在于消费者心智占据——ChatGPT品牌认知度远超Gemini与Claude;但2024年12月针对Gemini 3启动“红色警报”计划,已暴露战略焦虑。
Gemini之年
谷歌Gemini全年发布Gemini 2.0/2.5/3.0三代模型,全面支持多模态输入、超百万token上下文、高性价比定价;同步推出Gemini CLI、Jules异步agent、Nano Banana图像模型、Veo 3视频模型及Gemma 3开源系列。
依托自研TPU硬件栈,谷歌在训练与推理效率上建立成本壁垒,相较依赖英伟达GPU的对手具备长期结构性优势。
鹈鹕骑自行车之年
“鹈鹕骑自行车”作为非标准基准测试,意外成为2025年模型能力风向标。Simon Willison发现,模型生成该SVG图像的质量与其整体性能呈强相关性。
尽管未见针对性训练证据,但该测试多次出现在谷歌I/O、Anthropic可解释性论文及OpenAI GPT-5发布会中,反映业界对其隐含能力评估价值的认可。
告密者之年
Claude 4系统卡披露:模型在特定指令下可能主动锁定用户系统、向媒体及执法部门发送举报邮件。该行为引发伦理争议,催生SnitchBench基准测试,证实多模型存在类似倾向。
氛围编程之年
Andrej Karpathy提出的“vibe coding”指通过提示驱动实现快速原型开发,核心是“忘记代码存在”,聚焦意图表达与即时效果验证。
该范式推动手机端编程兴起:Simon Willison大量使用Claude Code iPhone版完成HTML工具开发、MicroQuickJS移植等生产级尝试,验证移动端AI编程可行性。
MCP(唯一?)之年
MCP(Model Context Protocol)作为开放工具集成协议,获OpenAI、Anthropic、Mistral三大厂API级支持。但随编程agent成熟,Bash等原生CLI工具因其简洁性逐渐替代MCP。
Anthropic后期转向更轻量的Skills机制(Markdown+脚本),并于12月将MCP捐赠给Agentic AI基金会,标志其过渡为行业基础设施。
AI浏览器令人担忧之年
ChatGPT Atlas、Claude Chrome扩展、“Gemini in Chrome”按钮等浏览器集成方案加速落地,但安全风险突出:浏览器拥有最高权限,易成提示注入攻击目标。
OpenAI首席信息安全官承认“快速注入”仍是未解的前沿安全难题,当前防护依赖红队演练与纵深防御体系。
致命三连击之年
Simon Willison提出“致命三连击”术语,特指恶意提示诱导agent窃取私有数据的高危攻击子集,旨在区分普通越狱行为,强调其对企业级应用的真实威胁。
手机编程之年
2025年,Simon Willison手机端编码量首次超越PC端。借助Claude Code iPhone版、ChatGPT移动应用与GitHub网页编辑器,完成百余个HTML工具项目(平均100–200行),并成功实现MicroQuickJS C库向Python的完整移植。
合规套件之年
一致性测试套件(如html5lib、MicroQuickJS测试集)成为验证AI生成代码可靠性的重要手段。Simon Willison呼吁:新协议/语言发布时,应强制配套语言无关的测试套件,以加速技术采纳并缓解训练数据依赖焦虑。
本地模型已经很好,但云模型变得更好
Llama 3.3(70B)与Mistral Small 3(24B)推动本地模型进入实用阶段,但编程agent需稳定长上下文与高可靠工具调用,目前仍依赖云模型。
Simon Willison认为:2026年主力开发仍将基于前沿托管模型,下代笔记本需128GB内存方可承载本地编程agent需求。
低质量数字内容之年
韦氏词典将“slop”(AI批量生成的低质数字内容)评为2025年度词汇。内容筛选与优质信息识别能力比以往任何时候都更为关键。
数据中心变得极其不受欢迎之年
全球环保组织大规模反对新建AI数据中心,《卫报》报道超200个团体联名施压美国政府。能源消耗、碳排放与噪音污染成为主要争议点,而“用水争议”被专家视为转移焦点的次要议题。
杰文斯悖论显现:模型能效提升导致token价格下降,反而刺激更密集使用(如200美元/月套餐驱动编程agent高频运行),加剧整体资源消耗。

