2021–2025:从 Chat 到 Copilot,再到 Agent 的五年编年史
——以 2025 年 12 月的视角回顾
如果把这五年压缩成一条时间线,你会看到一个很清晰的趋势:
AI 先学会聊天和写代码,然后长出记忆和感知能力,最后钻进工具和工作流里,开始自己接手任务。
一、前传:代码的觉醒
2021 年 8 月:OpenAI Codex
-
事件:OpenAI 发布 Codex,成为 GitHub Copilot 的底层模型。 -
里程碑意义:“AI 懂代码了”。
Codex 打破了“语言模型主要用来生成自然语言文本”的固有印象,第一次比较系统地展示了:
自然语言描述 → 代码 → 可执行结果
这条链路可以由模型来打通。后来的 Cursor、Claude Code 等“AI 编程助手”,都可以把 Codex 看成源头之一。
二、第一阶段:大爆炸(The Big Bang)
2022 年 11 月:ChatGPT(基于 GPT-3.5)
-
事件:OpenAI 上线 ChatGPT。 -
里程碑意义:“iPhone 时刻”。
关键不只在于“模型变聪明”,而是通过 RLHF,让模型第一次在大规模上真正做到“听人话”:
-
能理解非专业用户的口语化指令; -
能顺着人类意图往下推演; -
能在对话中保持稳定的人设和风格。
对很多人来说,这是第一次真正感到“未来被提前拉到眼前”。AI 从实验室里的技术玩具,变成了普通人可以日常使用的数字外骨骼。
2023 年 3 月:GPT-4
-
事件:OpenAI 发布 GPT-4。 -
里程碑意义:“逻辑的基准”
在相当长的一段时间里,GPT-4 是综合推理、代码、写作等多个维度的统一标杆。
Scaling Law 本身早在 GPT-3 时代就已被提出,但 GPT-4 用大量实际任务证明了一件事:
只要在模型规模、数据和算力上继续投入,综合能力还有明显的上升空间。
这也让整个行业在 2023 年之后,仍然对“大力出奇迹”保持信心。
三、第二阶段:工作流与多模态(Workflow & Multimodal)
2024 年 2 月:Gemini 1.5 Pro(Google)
-
事件:Google 发布 Gemini 1.5 Pro,提供 100 万 token 上下文,之后逐步开放到 200 万。 -
里程碑意义:“长记忆 + 原生多模态”。
Gemini 1.5 的关键不只在于“上下文变长”,而在于:
-
文本、图片、音频、视频可以混在同一上下文中处理; -
可以一次性塞进一小时视频、整本书、整站网页; -
在这堆混合数据里精确检索、定位关键片段。
这标志着模型第一次比较成体系地呈现出“带时间轴的感知能力”,从只会读字,走向“能看能听”。
2024 年 6 月:Claude 3.5 Sonnet(Anthropic)
-
事件:Anthropic 发布 Claude 3.5 Sonnet,在推理和编码基准上刷新多项行业记录。 -
里程碑意义:“程序员的白月光”。
Claude 3.5 Sonnet 不一定是参数量最大的模型,但在很多真实开发场景里,它表现出了几个特点:
-
代码结构更贴实际工程风格; -
对复杂改动的拆解更细腻; -
工具调用稳定、成本相对可控。
结果就是:它很快成为大量团队的主力编码模型,被不少开发者当成“默认选项”。
2024 下半年 – 2025 年:Cursor & Composer(IDE 的重构)
事件:
-
2024 年下半年,Cursor 的 Composer 模式开始在社区流行,可以自动跨多文件改动、调用终端、补测试。 -
2025 年,Cursor 2.0 发布自研 MoE 编程模型 Composer 1,把编辑器彻底重构为一个以 Agent 为中心的 IDE。
里程碑意义:“AI 走出对话框,钻进 IDE”。
Cursor 本身不是一个模型,而是一个“容器”:
-
上游可以接不同的大模型(GPT-5、Claude、Gemini 等); -
下游直接操作你的代码库、终端、浏览器。
在这条线上,真正的生产力跃迁往往不是“模型分数再高一点”,而是交互方式被改写——从“你对话,它回答”,变成“你提出目标,它直接动手”。
四、第三阶段:推理与智能体(Reasoning & Agents)
2025 年 2 月:Claude 3.7 Sonnet 与 Claude Code
-
事件:Anthropic 发布 Claude 3.7 Sonnet,以及终端工具 Claude Code。 -
里程碑意义:“从副驾驶到主驾驶”。
Claude 3.7 Sonnet 被定位为首个大规模商用的“混合推理模型”:
-
在简单任务上,可以快速响应; -
在复杂任务上,可以开启延长思考模式,让模型显式“多想几步”
Claude Code 则是把这种推理能力直接焊在终端里:
-
自己读代码库; -
自己下命令、跑测试、修 Bug; -
人类更多是做 review、确认和兜底。
这标志着 AI 不再只是“给建议的副驾驶”,而是可以接管一整段开发工作流的“主驾驶”。
2025 年 8 月:GPT-5(OpenAI)
-
事件:OpenAI 发布 GPT-5,并逐步将 ChatGPT 等产品切换到这一代系统。 -
里程碑意义:“通用能力的大一统”。
GPT-5 做的事情,更多不是“又多一个模型”,而是:
用一个路由系统,把
快速响应用的轻量模型、
深度推理用的 Thinking 模式、
更高规格的 Pro 版本
统一封装在一个入口里;
在官方测试中,相比 GPT-4o,幻觉率有明显下降,但并没有完全消失,更接近“把幻觉压到可管理的范围”
从使用体验上看,GPT-5 试图把“模型选型”的复杂度从用户头上移走,让用户重新面对的,是一个“整体智能体”,而不是一堆型号和参数。
2025 年 11 月:Gemini 3 与 Claude Opus 4.5
事件:
-
Google 发布 Gemini 3 系列,以 Gemini 3 Pro 为旗舰。 -
Anthropic 发布 Claude Opus 4.5,在 coding 和 Agent 工作流场景中刷新多项基准。
里程碑意义:“Agent 时代的双旗舰”。
两者的侧重点略有不同:
-
Gemini 3 Pro 更强调多模态推理、实时搜索、长上下文,把“会看、会想、会查”几种能力整合在一起; -
Claude Opus 4.5 更侧重复杂代码库、长程任务和真实电脑操作,在自动修复大型项目、长流程自动化方面表现突出。
如果说 2022 年是“人人第一次见到 ChatGPT 的那一年”,那么 2025 年很可能会被回顾为:
第一次大规模把真实工作外包给 AI Agent 的那一年。
五、回过头看,这五年其实只是在做一件事
把这些节点按时间排好,你会看到一条非常干脆的演化路径:
-
Codex 与 ChatGPT:
AI 先学会了说话,也学会了写代码。
它能解释、能生成、能帮你把想法变成文本或代码,但核心形态还是“聊天窗口里的回答者”。
-
Gemini 1.5 与 Claude 3.5:
AI 拥有了更长的记忆、更强的推理能力,并开始具备原生多模态的感知:
一次看完视频、读完长文档、理解复杂上下文变得可行。
它不再只是“记性好一点的 ChatGPT”,而是开始能扛起一整段复杂任务的理解工作。
-
Cursor、Claude Code、GPT-5、Gemini 3、Opus 4.5:
AI 被嵌入 IDE、终端、浏览器和业务系统,开始从“回答问题”走向“接管任务”:
-
在编辑器里,它直接改文件、跑测试; -
在终端里,它自己下命令、监控结果; -
在业务侧,它可以串起多个工具和步骤,跑完一整个工作流。
如果用角色变化来概括,这五年的路大致可以这样压缩:
-
一开始,它只是一个 Chatbot:能聊、能解释。 -
很快,它变成了 Copilot:坐在你旁边,帮你改代码、写文档、查资料。 -
现在,它正逐步长成 Agent:钻进工具链和系统里,自己规划、自己执行,你更多是在旁边确认方向和结果。
回头看,这条时间线并不是在讲一堆“新品发布会”,
而是在讲同一件事情被一点点推进:
人和 AI 的分工,从“我问你答”,
变成“我定目标,你去干”。

