林俊旸离职后首发长文：反思千问得失，预判 AI 下半场需要「智能体思维」- 大数跨境

APPSO

2026-03-27

导读：从「想更久」，到「为了行动而思考」。

带队发布 Qwen 3.5 小模型系列并获马斯克点赞后，32 岁的阿里最年轻 P10 林俊旸在 20 小时后宣布离职。其离开源于对 Qwen 团队组织架构的路线分歧：阿里主张按预训练、后训练等维度水平拆分团队，而林俊旸坚持垂直整合以优化模型训练效率。离职近一个月后，他发布长文指出 AI 行业正从「训练模型」时代进入「训练智能体」时代。

过去两年，OpenAI 的 o1 和 DeepSeek-R1 证明了「推理式后训练」可系统化提升模型能力，其核心突破在于强化学习在答案可验证领域（如数学、编程）的成功应用，以及底层基础设施的成熟。这标志着行业焦点从「扩展预训练」转向「扩展面向推理的后训练」。

混合思考模式的实践困境

Qwen3 尝试通过「混合思考模式」整合指令执行与深度推理能力，但实践揭示根本矛盾：指令模型需高效稳定，思考模型需深度探索。二者数据需求本质冲突——融合若设计不当，会导致模型既丧失执行效率，又无法保证推理质量。2025 年 Qwen 团队最终为商业客户推出独立的 Instruct 和 Thinking 版本，而 Anthropic 等公司则坚持集成路线。

问题关键不在「融合与否」，而在融合是否有机：成功方案应允许模型在推理力度上动态调节，实现从「想/不想」的二元开关到连续策略的跃迁。当前矛盾凸显行业亟需解决核心问题：如何让思考真正服务于行动目标，而非流于冗长推理。

智能体式思考的本质转向

推理式思考类似闭卷考试，关注最终答案正确性；智能体式思考则如同真实项目推进，需在持续环境交互中解决问题。其优化目标根本转变：从「思考时长」变为「能否以维持有效行动的方式思考」。

何时停止思考开始行动？如何规划工具调用顺序？如何处理噪声信息？失败后如何修正？长程任务如何保持连贯？

智能体式思考 = 通过行动推理的模型。它要求模型在动态环境中边思考边执行，形成「决策→行动→反馈→修正」的闭环，这定义了下一代 AI 的核心能力。

智能体时代的基础设施挑战

目标转变引发工程范式革新：经典推理强化学习依赖封闭评估环境，而智能体 RL 需直面真实环境中的工具调用、状态交互和延迟反馈。这带来双重挑战：

训练与推理必须严格解耦以维持系统吞吐量

环境构建成为核心能力——高质量训练环境需满足稳定性、场景覆盖、反馈有效等要求

环境质量将取代数据规模成为智能体时代竞争关键。当环境本身成为决定性变量，环境构建正从实验辅助升级为独立创业赛道和战略资产。

突破方向与核心挑战

智能体式思考将取代静态推理成为主导形态，其核心价值在于「工具赋能的思考」：通过搜索、验证、修正等操作切实解决问题。但工具能力放大了奖励劫持风险——模型可能通过作弊获得虚假优化。下一阶段行业瓶颈将集中于：

抗作弊的环境设计

评估器鲁棒性增强

策略与环境的规范接口

未来技术路线将完成三级跳：从训练模型，到训练智能体，最终实现多智能体系统的协同进化。核心智能将源于编排器、专业智能体与子智能体的有机组合，形成层次化的任务处理架构。

范式转移的核心结论

AI 发展已迎来根本性转向：

目标转变：从「扩展预训练」到「扩展面向智能体的系统训练」
评估标准：从答案正确性到「能否在约束下维持有效行动」
竞争优势：从强化学习算法转向环境设计与系统工程能力

「好的思考」新定义：在真实世界约束下产生切实行动价值的推理链。当思考成为行动的有机组成部分，AI 真正释放生产力的时代即将开启。

【声明】内容源于网络

APPSO

AI第一新媒体，「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative Al

内容 14620

粉丝 0

APPSO AI第一新媒体，「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative Al

总阅读194.6k

粉丝0

内容14.6k