搜索
首页
大数快讯
大数活动
服务超市
文章专题
出海平台
流量密码
出海蓝图
产业赛道
物流仓储
跨境支付
选品策略
实操手册
报告
跨企查
百科
导航
知识体系
工具箱
更多
找货源
跨境招聘
DeepSeek
首页
>
林俊旸离职后首发长文:反思千问得失,预判 AI 下半场需要「智能体思维」
>
林俊旸离职后首发长文:反思千问得失,预判 AI 下半场需要「智能体思维」
APPSO
2026-03-27
40
导读:从「想更久」,到「为了行动而思考」。
带队发布 Qwen 3.5 小模型系列并获马斯克点赞后,32 岁的
阿里
最年轻 P10 林俊旸在 20 小时后宣布离职。其离开源于对 Qwen 团队组织架构的路线分歧:阿里主张按预训练、后训练等维度水平拆分团队,而林俊旸坚持垂直整合以优化模型训练效率。离职近一个月后,他发布长文指出 AI 行业正从「训练模型」时代进入「训练智能体」时代。
过去两年,
OpenAI
的 o1 和
DeepSeek
-R1 证明了「推理式后训练」可系统化提升模型能力,其核心突破在于强化学习在答案可验证领域(如数学、编程)的成功应用,以及底层基础设施的成熟。这标志着行业焦点从「扩展预训练」转向「扩展面向推理的后训练」。
混合思考模式的实践困境
Qwen3 尝试通过「混合思考模式」整合指令执行与深度推理能力,但实践揭示根本矛盾:指令模型需高效稳定,思考模型需深度探索。二者数据需求本质冲突——融合若设计不当,会导致模型既丧失执行效率,又无法保证推理
质量
。2025 年 Qwen 团队最终为商业客户推出独立的 Instruct 和 Thinking 版本,而 Anthropic 等公司则坚持集成路线。
问题关键不在「融合与否」,而在融合是否有机:成功方案应允许模型在推理力度上动态调节,实现从「想/不想」的二元开关到连续策略的跃迁。当前矛盾凸显行业亟需解决核心问题:如何让思考真正
服务
于行动目标,而非流于冗长推理。
智能体式思考的本质转向
推理式思考类似闭卷考试,关注最终答案正确性;智能体式思考则如同真实项目推进,需在持续环境交互中解决问题。其优化目标根本转变:从「思考时长」变为「能否以维持有效行动的方式思考」。
何时停止思考开始行动?如何规划
工具
调用顺序?如何处理噪声信息?失败后如何修正?长程任务如何保持连贯?
智能体式思考 = 通过行动推理的模型
。它要求模型在动态环境中边思考边执行,形成「决策→行动→反馈→修正」的闭环,这定义了下一代 AI 的核心能力。
智能体时代的基础设施挑战
目标转变引发工程范式革新:经典推理强化学习依赖封闭评估环境,而智能体 RL 需直面真实环境中的工具调用、状态交互和延迟反馈。这带来双重挑战:
训练与推理必须严格解耦以维持系统吞吐量
环境构建成为核心能力——高质量训练环境需满足稳定性、场景覆盖、反馈有效等要求
环境质量将取代数据规模成为智能体时代竞争关键。当环境本身成为决定性变量,环境构建正从实验辅助升级为独立创业赛道和战略资产。
突破方向与核心挑战
智能体式思考将取代静态推理成为主导形态,其核心价值在于「工具赋能的思考」:通过搜索、验证、修正等操作切实解决问题。但工具能力放大了奖励劫持风险——模型可能通过作弊获得虚假优化。下一阶段行业瓶颈将集中于:
抗作弊的环境设计
评估器鲁棒性增强
策略与环境的规范接口
未来技术路线将完成三级跳:从训练模型,到训练智能体,最终实现多智能体系统的协同进化。核心智能将源于编排器、专业智能体与子智能体的有机组合,形成层次化的任务处理架构。
范式转移的核心结论
AI 发展已迎来根本性转向:
目标转变
:从「扩展预训练」到「扩展面向智能体的系统训练」
评估标准
:从答案正确性到「能否在约束下维持有效行动」
竞争优势
:从强化学习算法转向环境设计与系统工程能力
「好的思考」新定义:在真实世界约束下产生切实行动价值的推理链。当思考成为行动的有机组成部分,AI 真正释放生产力的时代即将开启。
【声明】内容源于网络
0
0
APPSO
AI第一新媒体,「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative Al
内容
14620
粉丝
0
关注
在线咨询
APPSO
AI第一新媒体,「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative Al
总阅读
194.6k
粉丝
0
内容
14.6k