大数跨境
0
0

学术分享丨2025大模型最全复盘:“中国开源”崛起、OpenAI“走下神坛”、Vibe Coding提升10倍生产力!

学术分享丨2025大模型最全复盘:“中国开源”崛起、OpenAI“走下神坛”、Vibe Coding提升10倍生产力! 中国人工智能学会
2026-01-06
24
转自 学术头条

这或许是对2025年大模型行业的最全面总结。

来自社交会议目录Lanyrd联合创始人、Django Web框架联合创建者Simon Willison发表的最新文章《2025: The year in LLMs》。

作为资深业内人士,他系统回顾了2025年大模型行业的整体发展脉络,核心观点包括:

  • 2025年是“中国开源”与“美国闭源”的竞争之年。GLM-4.7、Kimi K2 Thinking等国产模型在全球影响力显著提升。
  • 2025年是OpenAI失去技术领先优势、谷歌迎头赶上的一年。Gemini 3.0与Nano Banana在多项能力上超越GPT-5系列,“整个行业已追了上来”。
  • 2025年,Coding Agent与Claude Code成为大模型价值落地的关键路径,开发者甚至编程新手均可通过vibe coding方式提升10倍生产力。

文章还深入剖析了推理、智能体等技术范式演进,并对“Llama走偏”“MCP昙花一现”“AI垃圾(slop)”等年度热点话题作出专业评述。

推理之年

2024年9月,OpenAI通过o1与o1-mini正式开启“推理(reasoning)”范式革命,即推理时扩展(inference-scaling)或可验证奖励强化学习(RLVR)。2025年初,o3、o3-mini与o4-mini进一步巩固该方向。“推理能力”由此成为主流AI实验室模型的核心标志。

Andrej Karpathy指出:在数学、代码等可自动验证的任务中,通过RLVR训练的大语言模型能自发涌现类似人类的推理行为——反复推敲、多策略尝试、逐步逼近答案。

RLVR具备极高性价比,迅速分流大量预训练算力。2025年多数能力突破本质是各实验室消化该范式红利的结果:模型参数量未显著增长,但强化学习(RL)训练时长大幅增加。

所有主流AI实验室均发布至少一款推理模型;部分推出混合型架构,支持推理/非推理模式切换;多数API模型配备“推理强度”调节旋钮。

推理能力真正的价值在于驱动工具:具备工具调用能力的推理模型可对多步骤任务进行动态规划、执行与结果反馈,实时调整策略以达成目标。

典型成果包括:AI辅助搜索效果显著提升,ChatGPT中GPT-5 Thinking已可有效解答复杂研究型问题;代码调试能力大幅增强,模型能从错误出发逐层穿透大型代码库定位根因。

智能体之年

年初作者曾预测“智能体不会真正出现”,因2024年业内对“智能体”定义混乱、落地案例稀缺,且LLM取代人类员工仍属科幻范畴。

9月,作者给出简洁定义:“智能体即为达成目标而循环调用工具的大语言模型”。以此为基础,智能体时代已实质性到来。

当前最具突破性的两大应用领域为编程与搜索。

深度研究(Deep Research)模式曾流行于上半年,但随着GPT-5 Thinking及谷歌“AI mode”能在更短时间内产出同质结果,其热度已下降;但仍适用于特定长周期信息整合场景。

相较而言,“编程智能体(coding agents)”影响力更为深远。

编码智能体与Claude Code之年

2025年最具影响力的事件发生于2月:Anthropic低调发布Claude Code。此举甚至未单独发文,仅作为Claude 3.7 Sonnet公告中的第二项内容。

Claude Code是编码智能体的代表性范式:系统可编写代码→执行→检查结果→迭代优化,形成闭环。

2025年,主流实验室纷纷推出CLI编程智能体,包括:

  • Claude Code
  • Codex CLI
  • Gemini CLI
  • Qwen Code
  • Mistral Vibe

其他选择还包括GitHub Copilot CLI、Amp、OpenCode、OpenHands CLI及Pi;Zed、VS Code、Cursor等IDE亦加速集成编程智能体功能。

作者自2023年初使用ChatGPT代码解释器起接触该范式;2025年9月Anthropic上线“使用Claude创建和编辑文件”功能;10月基于同一沙箱推出Claude Code网页版,此后成为其每日主力工具。

Claude Code网页版属异步编程智能体:用户下达指令后即可离线等待,系统独立完成任务并提交拉取请求。OpenAI Codex web与Gemini Jules亦于2025年5月同步上线。

异步编码智能体既规避了本地运行任意代码的安全风险,又支持多任务并发操作,手机端几分钟内即可获得可用结果,体验高效直观。

LLM走向命令行之年

2024年作者长期打磨LLM命令行工具,曾困惑于CLI为何未成主流。终端与Unix管道机制天然契合,但彼时开发者接受度有限。

Claude Code及其同类工具证实:当模型足够强大、交互机制合理,开发者完全愿意在命令行中使用LLM。

当LLM能直接生成正确命令时,语法晦涩的终端指令不再构成使用门槛。

截至2025年12月2日,Anthropic透露Claude Code年化营收已达10亿美元——一个CLI工具实现近十亿级规模,远超预期。

中国开源模型登顶之年

2024年,Qwen 2.5与早期DeepSeek崭露头角,但尚未达到全球领先水平。2025年局面剧变:作者在「ai-in-china」标签下发布67篇文章,尚遗漏GLM-4.7、MiniMax-M2.1等关键发布。

截至2025年12月30日,Artificial Analysis开源模型排行榜显示:

GLM-4.7、Kimi K2 Thinking、MiMo-V2-Flash、DeepSeek V3.2、MiniMax-M2.1均为国产开源模型;排名最高的非中国模型为OpenAI gpt-oss-120B(high),位列第六。

这场革命起点可追溯至2024年圣诞节发布的DeepSeek 3(训练成本约550万美元)。2025年1月20日DeepSeek R1发布,引发全球AI与半导体板块剧烈震荡,英伟达单日市值蒸发约5930亿美元。

虽股价迅速回升并创历史新高,但一个开源模型撼动全球科技资本格局的历史时刻已载入史册。

紧随DeepSeek之后,一批实力雄厚的中国AI实验室集体崛起,重点包括:

  • DeepSeek
  • Alibaba Qwen(Qwen3)
  • Moonshot AI(Kimi K2)
  • Z.ai(GLM-4.5/4.6/4.7)
  • MiniMax(M2)
  • MetaStone AI(XBai o4)

多数模型采用OSI认证协议完全开源:Qwen主推Apache 2.0,DeepSeek与Z.ai采用MIT协议。部分模型性能已可与Claude 4 Sonnet、GPT-5正面竞争。

遗憾的是,中国实验室尚未公开完整训练数据与训练源代码,但持续发表高质量论文,在高效训练与推理优化等前沿领域贡献突出。

长任务之年

METR近期发布的一张图表揭示了LLM在软件工程任务中的长时程能力跃迁:横轴为人类需耗时5小时完成的任务,纵轴为模型以50%成功率完成的时间跨度。

数据显示:GPT-5、GPT-5.1 Codex Max与Claude Opus 4.5已可稳定处理需人类数小时完成的任务,而2024年最强模型上限仍为30分钟以内。

METR据此提出:“AI可完成任务时长每7个月翻倍。”该规律未必长期成立,但直观呈现了智能体能力指数级演进趋势。

“一句话修图”的时代来临

2025年3月,ChatGPT上线全新图像编辑功能——用户上传照片后,仅需自然语言提示即可精准修改,无需专业设计知识。该功能一周内带来1亿次注册,峰值单小时新增账号100万个。

“吉卜力化”等风格迁移玩法在社交媒体病毒式传播。

OpenAI随后发布API版本gpt-image-1;10月推出轻量版gpt-image-1-mini;12月16日上线大幅升级的gpt-image-1.5。

开源阵营中,阿里巴巴Qwen于8月4日发布Qwen-Image生成模型,8月19日推出可在家用电脑运行的Qwen-Image-Edit;11月与12月底再推Qwen-Image-Edit-2511与Qwen-Image-2512。

谷歌Nano Banana系列(Gemini 2.5 Flash Image)引爆行业:8月26日正式亮相,11月发布Nano Banana Pro,首次实现准确文字生成与高信息密度图表输出,成为专业级视觉生产力工具。

Anthropic至今未在Claude中集成图像功能,侧面印证其专注办公级AI工具的战略取向;但Nano Banana Pro已证明:PPT制作、视觉素材生成等高频需求,正成为大模型落地刚需。

模型在学术竞赛中斩获金牌之年

2025年7月,OpenAI与Google Gemini推理模型在国际数学奥林匹克竞赛(IMO)中达到金牌水平。IMO题目专为赛事原创,几乎不可能出现在训练数据中,且解题全程未接入外部工具,纯靠模型内部知识与token级推理完成。

9月,二者在国际大学生程序设计竞赛(ICPC)中再次达成同等成就:题目新颖未公开,模型可使用代码执行环境,但无互联网访问权限。

虽具体参赛模型版本尚未公开,但Gemini Deep Think与OpenAI GPT-5 Pro已具备接近能力。

Llama走偏之年

2024年属Llama之年:Llama 3.1与3.2推动开源模型能力飞跃。但2025年4月发布的Llama 4令人失望——Llama 4 Scout(109B)与Maverick(400B)体积过大,即便量化后亦无法在64GB内存Mac上运行。

其训练基座Llama 4 Behemoth(2T)已遭遗忘,从未对外发布。

LM Studio与Ollama平台数据显示:Meta无一款模型进入最受欢迎榜单前列,Llama 3.1虽仍存,但位置边缘化。

年内关于Meta的AI新闻更多聚焦于内部权力博弈与Superintelligence Labs挖角动作,Llama后续路线不明,开源权重策略是否延续亦成疑问。

OpenAI失去领先优势之年

2024年OpenAI仍为无可争议领跑者。2025年,行业整体追赶提速,其领先优势被全面挑战:

  • 图像领域:Nano Banana Pro持续压制
  • 代码生成:Opus 4.5略优于GPT-5.2 Codex
  • 开源模型:gpt-oss系列已落后于中国实验室
  • 音频能力:Gemini Live API构成威胁

OpenAI唯一稳固优势在于消费者心智——ChatGPT已成为LLM代名词,用户规模远超Gemini与Claude。

面对Gemini 3带来的压力,OpenAI于2024年12月启动“红色警戒”,暂停非核心项目,集中资源应对直接竞争。

Gemini崛起之年

谷歌Gemini经历成功一年:相继推出Gemini 2.0、2.5与3.0,全系列支持音视频图文跨模态输入,上下文容量超100万tokens,性能逐代提升,定价极具竞争力。

重磅产品包括:Gemini CLI(开源命令行编程智能体,后被通义千问分叉为Qwen Code)、异步编程智能体Jules、AI Studio持续优化、Nano Banana图像模型、Veo 3视频模型、Gemma 3开源权重系列及多项细分功能更新。

谷歌最大优势在于底层硬件:自研TPU在训练与推理中表现卓越,成本结构优于依赖NVIDIA GPU的竞对。当GPU算力成为主要成本瓶颈时,拥有自研、优化且低成本硬件堆栈的对手令人生畏。

Gemini之名源自DeepMind与Google Brain合并,恰如其分映射公司组织基因。

鹈鹕骑自行车之年

作者自2024年10月起测试LLM生成“鹈鹕骑自行车”SVG矢量图,2025年该冷笑话演变为行业隐性能力标尺。

尽管训练数据中几乎不存在相关样本,但模型绘制质量与其综合能力呈正相关——该测试曾亮相Google I/O主旨演讲、Anthropic可解释性论文及OpenAI总部GPT-5发布会视频。

作者认为实验室不会专门为此训练模型,因即使最先进模型生成的鹈鹕插图依然拙劣,但其已成为观察模型底层推理能力的有趣切口。

开发110个工具之年

作者2025年在tools.simonwillison.net累计构建110个AI辅助HTML+JavaScript工具,全部采用vibe coding方式完成。

代表工具包括:

  • blackened-cauliflower-and-turkish-style-stew:专为同步烹饪Green Chef黑椒菜花与土耳其鹰嘴豆炖菜设计的定制计时器
  • is-it-a-bird:基于Transformers.js加载150MB CLIP模型,实时判断摄像头画面是否为鸟类
  • bluesky-thread:支持“最新发布优先”的Bluesky讨论串跟踪工具

其他高频使用工具包括svg-render、render-markdown、alt-text-extractor及隐私友好的localStorage分析工具。

vibe coding之年

2025年2月,Andrej Karpathy提出“vibe coding”概念:一种近乎忘却代码存在的新型编程方式——仅凭直觉提示,交由LLM完成编码、执行、调试全过程,开发者聚焦目标而非语法细节。

该方式依赖强推理模型(如Claude Sonnet+Cursor Composer)与语音交互(如SuperWhisper),特征为“点全部接受”“复制粘贴报错”“绕过难题直至解决”,适用于快速原型开发。

作者强调应守护原意:“vibe coding”特指低认知负荷、高直觉驱动的原型阶段,而非泛指所有AI辅助编程。专业开发仍需交付经验证的可靠代码。

MCP之年(或许是唯一一年)

Anthropic于2024年11月推出模型上下文协议(MCP),旨在统一工具调用标准。2025年初获爆发式采纳:OpenAI、Anthropic、Mistral于5月8日内相继宣布API级支持。

MCP兴起源于时机成熟——模型工具调用可靠性提升,部分企业将其视为快速落地AI战略的捷径。

但编程智能体的进化正使其边缘化:Bash命令已能满足绝大多数需求,CLI工具(如gh)与库(如Playwright)实际体验优于MCP封装方案。

Anthropic年末转向更轻量的Skills机制(Markdown文件+可选脚本),并于12月18日升级为开放格式;MCP则于12月初捐赠予Agentic AI基金会。

AI深度赋能浏览器之年

OpenAI推出ChatGPT Atlas(由前Chrome核心工程师主导),Anthropic推广Claude in Chrome扩展,Chrome浏览器右上角已嵌入“Gemini”按钮。

当前功能仍限于网页内容问答,尚未实现自动执行任务。安全风险尤为突出:浏览器掌控用户最敏感数据,提示注入攻击仍是“前沿且未解决”的安全问题。

作者谨慎试用后认为:浏览器智能体虽慢且笨拙,但在API不可达场景下确有实用价值;对其广泛部署仍持审慎态度。

在手机上编程之年

作者2025年在手机上编写代码量远超电脑端:110个HTML工具多由iPhone端Claude Artifacts、ChatGPT或Claude Code生成,结果直接复制至GitHub网页编辑器或审查合并PR。

11月起,Claude Opus 4.5可靠性提升,作者开始用手机完成生产级任务,如将JustHTML解析器从Python移植至JavaScript、将MicroQuickJS C库移植至Python——全程在iPhone上使用Claude Code完成。

虽尚未直接用于高危生产环境,但已具备处理可信JavaScript代码的能力,配合自有测试套件建立基础信心。

本地模型表现出色,但云端模型更胜一筹之年

2024年底Llama 3.3 70B重燃本地运行热情;2025年1月Mistral Small 3(24B,Apache 2.0)以三分之一内存消耗实现同级性能,让GPT-4级别体验真正落地上笔记本。

中国实验室在20B–32B黄金参数区间持续刷新性能上限,离线工作成为可能。

但顶级云端模型进步更快:100B+参数模型虽可免费获取,却远超本地设备承载能力。

编程智能体对模型推理能力与上下文窗口稳定性要求极高,目前尚无本地模型能可靠支撑Bash工具链闭环。作者新购笔记本将配置128GB内存,以迎接2026年更强开源模型;现阶段仍以云端托管模型为主力。

垃圾内容泛滥之年

“Slop”(人工智能批量生成的低质量数字内容)被韦氏词典评为2025年度词汇。

作者2024年5月推广该词,后获《卫报》《纽约时报》引用。它精准传达业界共识:抵制低质AI内容,捍卫信息价值。

作者保持审慎乐观:互联网历来充斥噪音,优质内容筛选与放大机制始终是关键;内容策展能力比以往任何时候都更重要。

【声明】内容源于网络
0
0
中国人工智能学会
中国人工智能学会官方订阅号,为广大智能科技工作者提供前沿资讯,学术分享,科普信息的的多媒体平管
内容 8119
粉丝 0
中国人工智能学会 中国人工智能学会官方订阅号,为广大智能科技工作者提供前沿资讯,学术分享,科普信息的的多媒体平管
总阅读46.8k
粉丝0
内容8.1k