大数跨境
0
0

科技丨入职 OpenAI 前的全年复盘:2026 年值得做的几个方向

科技丨入职 OpenAI 前的全年复盘:2026 年值得做的几个方向 知乎日报
2025-12-18
1
导读:从 「研究已死」到充满信心

2025年,科技行业持续加速变革。随着年终临近,知乎科技邀请AI领域的亲历者分享他们的「AI中场时刻」——记录高光、迷茫与转折,为同行提供参考。

知友谢天宝在博士期间参与多个前沿项目,本文梳理了他科研路上的关键节点、从OSWorld到Qwen的实践经历,以及对2026年AI研究方向的思考。

注:本文内容顺序略有调整,原文可通过“阅读原文”链接查看。

@Timothyxxx

HKU PhD, Qwen, incoming OpenAI

我眼中2026研究者的下一步

回顾近年AI发展,若以关键词概括每年核心进展:

  • 2022年:CoT、ReACT等离散Prompt技术兴起;
  • 2023年ChatGPT、Alpaca推动Instruction Following普及;
  • 2024年:OpenAI o1与DeepSeek R1引领Test Time Scaling突破。

整体路线图延续OpenAI提出的五级智能体框架。截至2025年底,行业处于Level 3智能体阶段,预计2026年将解决鲁棒性与实用性问题,迈向“创新者阶段”。已有初步迹象显示AI具备自我演化能力,如Absolute Zero、Agent0等零样本系列工作正在探索中。当前重点在于强化RL基础设施建设,并通过数据迭代推动模型进化。

网传的OpenAI路线图

如果用一个词总结2025年,我认为是工程巩固。这一年,AI研究者和工业界进入中场休整期,聚焦基础设施完善与基础范式的夯实。社区正在进行广泛的知识再教育与交叉融合。

对我个人而言,也是沉淀之年。年初曾感到AI研究陷入瓶颈,但年末已重燃信心。以下是我在2026年看好的几个关键方向。

更扎实的基础、更工业化的工程,重视“考古”

近年来,论文中巧妙构思减少,取而代之的是更加成熟、工业级的框架(如Verl、Sglang)。开源社区正逐步复现Google、OpenAI等公司的内部实现,这些过去因基础薄弱被忽视的技术如今成为重点。

深度学习、机器学习及计算机科学的基本原理,在大规模系统中重新焕发生命力。回看ICML、NeurIPS等会议中的经典工作,许多思想仍具启发价值。深入“考古”,有助于构建更稳健的研究体系。

推进AI Researcher:赋予模型自我改进能力

目标是让AI具备主动优化自身的能力。当前工业界提升模型性能的流程已趋于模式化:执行指令→分析指标→调整数据与参数→重新训练→收敛验证。

若能建立有效机制,使模型自主识别所需数据、获取计算资源,甚至拥有操作GPU集群权限,合成代码并运行下一版本,同时通过上下文传递记忆并扩大训练规模,则有望将算法工程师从重复劳动中解放,转向更具创造性的问题。

测试时训练(Test Time Training,TTT)

Nested Transformer近期引发关注,TTT概念也逐渐扩展至持续学习、在线学习与知识编辑等领域。传统互联网语料已接近耗尽,人工标注的SFT与RL数据呈线性增长,而C端应用爆发导致推理算力占比大幅提升。

未来若能找到合适的人类监督窗口,使模型在推理过程中稳定地学习并更新自身,30亿用户的行为数据将成为动态训练源,逐步消除长尾与OOD问题。这种训练与推理融合的新范式,或将催生新一代Transformer、Megatron、SGLang、vLLM架构。TTT仅是起点,潜力巨大。

我的2025:在Qwen的一年

2024年9月,我从新加坡飞抵北京,初冬的灰蒙天空让我想起哈尔滨。与惠哥在亚运村吃完烤串后,未曾想到一个月内会重返阿里朝阳科技园,加入Qwen团队开启博士生涯下半场,一待就是一年多。

这一年专注工程实践,节奏紧凑,若不刻意回顾,几乎难以察觉积累的成果。借此机会做一次总结,也希望多年后仍能记得这段时光。

LLM Physics:语言模型的能量理论

2024年末或2025年初,公司人少,我和晓川搭伙处理数据与基建任务,期间结识包容哥。他热情投入研究,聊起Math领域时提及Allen Zhu提出的LLM Physics理论。

推荐阅读:https://physics.allen-zhu.com/

其核心观点是:解决简单问题(如1+1)只需消耗少量能量(对应单个token),复杂任务(如微积分)则需更多演算与能量,因此需要更长的CoT。强化学习是一种更优范式,可让模型学会控制能量释放过程。

这一视角令我豁然开朗。长期从事NLP的研究者习惯于压缩输入表示以降低模型负担,却难以解释为何输出越长性能越好。LLM Physics提示我们,应让模型学会判断表达所需的“能量成本”,这是泛化能力的关键所在。该理论目前已更新至Part 4,值得持续关注。

多模态Agent泛化难题:数据质量与思维链结构至关重要

自2024年暑期起,我们启动AgentNet项目,构建标注工具收集人类操作电脑轨迹,用于训练多模态Agent。至年底已积累数千条数据,开始清洗与训练。

原始数据为“动作-观测-动作-观测”序列,观测包含截图且存在错位。初期使用Claude、GPT-4o逆向补全思维链,在阿里访客中心反复检查pipeline效果,虽加入多种技巧提升图文prompt质量,但SFT训练Qwen2VL后在OSWorld上无性能提升,跨App迁移能力几乎为零。

经过多轮迭代,最终发现问题关键在于两点:

  1. 思维链质量必须高:不仅描述下一步动作,还需包含现状总结、任务进展、反思与规划,且需混合不同长度进行训练;
  2. In-domain数据极为重要:围绕Ubuntu及相关App构造高质量数据(避免过拟合),显著提升表现。

反思发现,此前缺乏系统方法论,解决问题时知识储备不足,实验设计混乱,导致关键因素排查滞后。若早些研读test time scaling与分布一致性相关文献,或可在RL infra建成前达成目标。Agent数据建设仍任重道远,需持续提升质量与数量。

在阿里巴巴园区的半夜线上面试,与OpenAI的一次邂逅

年初收到OpenAI联系,一度犹豫是否参与面试,因仍有未完成的学术设想且手头项目繁重。拖延至5月才完成后续多轮面试。

每场面试均在北京时间凌晨一点多进行,靠红牛与椰汁提神,进入会议室前手心出汗。感谢身边人的支持,幸运遇到赏识我的manager,也感激推荐人涛哥与顺雨哥。这次经历让我得以窥见彼岸一角,结识志同道合者,共同推动CUA发展。

令人心动的Offer

回望选择,不乏物质回报更高的机会,也曾动摇人生方向。身处浪潮之巅,每月想法都在变化。所幸始终保有好奇心,支撑我前行。

OSWorld维修大工程:在博弈中理解生态链

五六月间两件事引发关注:一是o3版本operator刷新OSWorld SOTA,但注明实际准确率估测达50%,因标注错误仅测出40+;二是某HUD公司邮件联系我寻求“合作”,主营竟是基于OSWorld的测评服务,并已完成融资

据估计,硅谷至少有五家公司直接或间接依托OSWorld创业,涵盖题目售卖、容器服务乃至评测平台,累计融资数亿美元。

HUD主要通过云并行压缩评测时间,但OSWorld本身支持并曾提供协助

尽管未从中获益,但我感叹硅谷生态之健全——任何环节皆可独立成公司,算法团队无需操心周边,均可调用API解决。

该公司指出OSWorld近半任务存在标注问题,计划推出OSWorld Verified。经与导师涛哥讨论,我们决定自主修复,防止项目失去学术属性及公众信任。

随后投入大量精力收集、整理、逐一修正问题,感谢MoonShot AI、OpenAI、Human Data、ByteDance Seed TARS、Anthropic、Simular、HKU Data Intelligence Lab、Qwen等团队支持。

最终发布OSWorld-Verified,修复初始化、评测逻辑、漏判、反爬虫等百余项问题,优化文档说明,支持云平台并行评估,单次评测压缩至1小时内。两周后,对方也发布其版本,双版本共存供社区选用。

此次经历深刻体会到:agent类任务标注成本极高,即便每个任务平均验证两三遍耗时数小时,仍难避免遗漏。随着模型能力提升,新问题将持续涌现,可持续维护机制亟待建立。

工业级RL框架难点不在训练本身

智能体强化学习是2025年工业界重点,可分为三部分:任务数据集、训练infra、环境infra。

实践中常先评估rollout pass@N(N=4,8,16)作为性能上界预估,结合entropy指标判断是否需实施RL,或应回到CPT/SFT阶段补充知识。尤其在agent等数据不足场景,此前置评估尤为重要,已被Zhewei(confidence-based reward)与Yilun Du(采样阶段激发CoT)的工作证实。

https://arxiv.org/pdf/2508.09123

业界共识还包括:CPT后SFT不宜过厚,仅用于冷启动格式学习,应限制token容量,避免信息过载。这倒逼厂商在eval基础上构建题目,只要预训练足够强,适度拟合仍可保持泛化。

对于CUA,任务与环境scaling相对明确,基于OSWorld延伸即可(后期亦意识到工程优化空间仍大)。真正挑战在于训练infra搭建,仅RL训推上涨就耗费大量时间。

本人年初跟随Verl热潮跑通GSM8K,但未深入。晓川早期尝试编写未果即赴CMU深造,后续由白姐主导推进。期间经历训推不一致(被戏称“阴阳调和”)、token in/out细节把控等问题。若非熟悉QwenVL结构及具备RL与并行系统基础,极难定位问题。掌握端到端流程需经历“不懂→理清→融会贯通”的过程,这也是2025年社区教育的核心目标。

多任务合版本:顺分布的重要性

杭州出差期间偶遇白姐、惠哥与Junyang老师,讨论如何整合多个强化学习方向能力。

结论是分别训练专项模型,再利用rollout数据类似RFT方式混合训练初始模型。我原以为应做online或多任务offline RL,但实际组网困难。

后阅读Thinking Machines的On-Policy Distillation博客,类比国际象棋教学:新手背大师棋谱无效,因其不在同一策略空间;正确做法是老师根据新手走法逐步行批注(token log prob),引导渐进学习。

https://thinkingmachines.ai/blog/on-policy-distillation/

这与RFT、RL及合版本理念相通。我的认知由此深化:蒸馏不仅是复制,更要考虑“学生”接受度,信号需逐步注入。CPT、SFT、RL各阶段不再割裂,而是统一连贯的学习路径。

GUI方向的质疑与UDA的未来

年底,部分年初热衷CUA的公司转向CLI侧coding agent,质疑声增多:“是否必须做GUI?”

我的观点是:未来属于Universal Digital Agent(UDA)——能混合使用coding、GUI、search等工具的模型,具备判断工具组合、顺序与优先级的能力(如苏哥的ToolOchestra探索方向)。

GUI本质是虚拟世界中的人形机器人接口,服务于人类交互需求。只要电子设备存在,GUI就不会消失,它是AI触及现实世界的必要环节,也是多数场景的“最后一公里”解决方案。长期来看,无法期待API覆盖一切,正如不能指望地铁通到每家门口来取代步行与共享单车。

然而,CUA仍需杀手级应用验证价值。目前ChatGPT Agent与UITARS2最接近理想状态,但仍不足。研究上可逐个击破,但UDA应成为行业共识

正当热议killer app之际,豆包手机横空出世。我购入测试,却发现微信、支付宝、淘宝、银行App陆续受限,连快手抖音也无法进入,迅速丧失兴趣。

普通用户耐心更有限。这反映出:消费类App入口争夺激烈,技术领先未必能突破合规壁垒。相比之下,Computer Use作为生产力工具,在B端更具实用性,封禁动机较弱

对学术界而言,AGI Agent的长期等价物仍是通用Agent。尽管当前可用App有限,但在少数场景已体验到极大便利。若全面打通,用户体验将飞跃。谁掌控流量入口,尚无定论。

结语

曾经,神明高不可攀;如今,一切有迹可循。2024至2025年曾经历存在主义危机,但年末已重拾信念:有太多值得探索的方向,有太多好奇心待满足。我对2026年的新篇章充满期待。

【声明】内容源于网络
0
0
知乎日报
知乎官方订阅号,每日精选知乎热门、有趣内容
内容 9839
粉丝 0
知乎日报 知乎官方订阅号,每日精选知乎热门、有趣内容
总阅读44.7k
粉丝0
内容9.8k