兜兜转转,2025 年的 AI 行业,以 DeepSeek R1 和 Manus 开局,最终又回到了基模本身的主线叙事。
谁对 Agent 的支持能力更好、谁的 Coding 能力更强、谁能用好工具,谁才是今天开发者更愿意选择的模型。
不再只看榜单分数,解决现实世界复杂任务的能力,成为了衡量模型的新标准。
字节在昨天发布的豆包大模型 1.8,同样选择增强了对于 Agent 的支持能力,除了继续增强 Coding 和工具使用能力之外,豆包 1.8 选择了一个更有想象力的场景——OS Agent。
一个不仅能搜索、能写代码,还能「看见」世界并且进行交互的 Agent。
不仅如此,随着模型同步发布的,还有一套基于现实世界任务的新的 Evaluation System,喊了一年的「AI 下半场」,或许这套评测集,是我们开启下半场的方式之一。
01
真正好用的基模:原生多模态+thinking
今天模型的技术发展,已经不再局限于基于文本模型了,先是 R1 和 o1 带来的 thinking 能力,然后就是厂商一直在增强的模型的视觉能力,用「眼睛」看懂和理解世界的能力。
如果 Agent 真的想成为人类现实世界复杂任务的助手,视觉能力是它们理解和执行这些复杂任务的有力保障。
过去,给大模型增加视觉理解能力一般是通过外挂的方式,在文本模型的基础上,加上 VLM 的能力,甚至单独发布一个 VLM 的模型。比如 OpenAI 在 2023 年发布的 GPT-4V 模型,而 Gemini 系列,采用了更原生、更端到端的方案,原生就是一款具备多模态理解能力的模型。
豆包模型也是这个思路,豆包 1.6 版本将 LLM 和 VLM 组合在一起,豆包 1.8 从一开始的预训练,就实现端到端的训练,不仅保留了文本的推理性能,还实现了视觉理解能力的显著提升,这才有了技术报告中的仅次于 Gemini 3 Pro 的能力表现。
数据来自豆包 1.8 Model Card
在这么短的时间内,实现对于 Gemini 系列的追赶和对标,某种角度上,也证明了基模公司之间,大家对于模型未来的发展是有共识的,无非是谁先能找到最高效的那条路而已。
至于 thinking 能力,豆包模型从 1.6 版本就实现了原生支持4种思考长度,让开发者根据场景实现思考长度的自调节,兼容不同的任务,很明显,thinking 能力是现在基模的标配,而不是可选项。
02
Agent 有了视觉能力,
解锁了更有想象力的新场景
Manus 开启了今年的 AI Agent 创业热潮,基模对于工具的调用能力成为创业者关注的重点,工具调用的可靠性问题成为了很多创业者在 Agent 场景的痛点。
豆包 1.8 版本,和今年发布的其他几款模型尤其是国产模型 Kimi K2、MiniMax M2 一样,重点增强了 Agent 使用工具的能力。
从技术报告中可以看出,豆包 1.8 在工具调用、智能体搜索、智能体编程和复杂指令遵循上都有了能力的大幅提升。
官方演示的调用工具的案例
从演示案例中可以明显看出,在 Agent 之外,豆包 1.8 核心的 agent 能力是 OS Agent,原生基座的视觉能力使它能够「看见」并直接与界面交互。
电脑、网页、移动端三类环境中任务执行能力的评测,数据来自官方 Model Çard。
能看到、能理解、能操作,带来了新的使用场景和想象力。
比如常见的 GUI 操作类任务,app 调用、企业 RPA 流程的一些自动化任务,比如最近引起热议的豆包手机助手。
OS Agent 可能带来了哪些新的可能性?
没有 api 或者很难提供 api 接口的系统,比如维护多年的银行 ERP、公司的内网系统等等这些传统 Agent 基本无法搞定的场景,今天可以用 OS Agent 的方式去提效了。
对 api 调用限制极其严格或者需要改造 api 的系统,GUI Agent 可以直接模拟网页操作,绕过 api 限制,实现跨平台的数据搬运。
视频理解创作更容易了,OS Agent 可以「看」懂画布。图片修改、视频修改,Agent 是通过视觉识别这些元素并拖拽鼠标完成的,而不是修改底层代码。
借助模型的视觉能力和自带的 Video 工具,GUI Agent 可以进行实时的视频流理解 + 动作决策。操作 app、监控视频的实时解析、甚至代打游戏不再是个难题了。
我们可以再往前畅想一步,今天是 Agent 在理解为人类设计的软件,下一步,很多软件可能会面向 Agent 设计交互,不再需要开发复杂的前端界面给人类看,软件只需要暴露一个极简的、高密度的信息界面给 Agent 看即可。
再下一步呢,Agent 可以根据当前的任务,实时生成一个临时的 UI 给人类确认,一个只需要简单交互就可以实现任务交付。
欢迎来到 Generative UI 的时代!(但可能还需要一段时间)
03
基模的「厚度」决定了 Agent 的天花板
对创业者来说,Seed 1.8 有一个重要的更新值得特别介绍下——思考模式下的工具调用,这个在 Claude Sonnet 4.5 和 DeepSeek-V3.2 中都已经推广使用的工具调用方式。核心是让模型在在保留推理状态的同时,进行多次工具调用。模型能够利用历史轮次的思考内容,最终给出更详尽准确的回答。对于长链路的 Agent 任务,保留推理状态能够显著提升最终的完成效果。
豆包 1.8 思考模式下的工具调用。
Agent 最终的能力如何,某种意义上来说,又回到基模本身的能力和厚度上。
Thinking 不再是单独的功能,而变成了基模的一个开关。
视频理解工具已经被模型原生的多模态能力吞噬了,基础模型自己就能直接「看」完一个半小时视频并回答问题。工具塌缩成了模型的感觉器官。
Coding 不再是一个垂直行业技能,而是它操作计算机、调用工具、处理文件的基础语言能力。当基模足够强,Coding 就从一个「应用」塌缩成了基模的标准能力。
或者可以说,很多上层应用,Agent、Coding、垂直工具的能力,最终又塌缩回基模本身。
开发者们需要做的,是搭建自己的 Context Engineering,利用模型的通用智能,去解决那些它因为缺乏数据和反馈而解决不了的「最后一公里」问题。
04
真正的 AI 下半场,
模型能力取决于你的 Evaluation
就如同姚顺雨所说,我们进入了一个「定义问题将比解决问题更重要,evaluation 比 training 更重要」的时代。
年初的 DeepSeek R1,年中的 Claude 4.5、Kimi K2、MiniMax M2,年底的 GPT-5.2、Gemini 3 Pro 和豆包 1.8,每款模型发布后,基本都会刷榜各个评测集。
但每款模型都能刷榜,也就意味着这些旧的评测集,存在的意义已经消失了。
没人再关心 GSM8K 的分数是 95 还是 96,大家只关心模型能不能独立分析完一张 Excel 表,能不能完成一项现实世界里需要花费 2h 完成的任务。
模型之间真正的能力对比,已经不是看公开榜单的做题能力了。
如何定义新的 Evaluation,在豆包 1.8 的 Model Card 中,团队发布了他们的 Evaluation System,可以当做对这个问题的一种回答。
评估系统遵循以下三个主要原则:
1. 优先考虑用户体验 :首先分析真实世界的用户需求。通过研究像 ChatGPT 这样的通用模型的实际使用案例分布(例如,查信息、文本编辑和辅导是前三大类别),豆包 1.8 的评估系统涵盖了关键的流行用例,从而更好地与 C 端用户需求对齐。
OpenAI 发布的 ChatGPT 用户用例。
2. 转向真实世界场景:从合成的、孤立的任务转向现实的、面向应用的场景。因为标准基准上的高分并不总是能转化为实际价值,因此,评估设计了具有高经济价值的任务,这些任务模仿了现实世界的复杂性。
3. 推动智能前沿:在优先考虑实际可用性的同时,评估系统仍然致力于推进通用智能。系统通过设计涵盖高级推理、数学和编码的新基准,来衡量模型的峰值性能,确保核心智能不会因为侧重可用性而被削弱。
在和豆包模型技术人员的交流中,他们分享了一个大众以为很容易,实际上很难的场景——客服场景,就是一个很典型的从真实世界场景出发的评测任务。
客服是一个难度被低估的场景,数据分析反而比客服简单。因为像 Coding、数据分析这类任务,天然存在大量公开数据,而且比较好验证。而客服,需要获得大量的 SOP 很难,任务里涉及很多因素不好验证,中间还有幻觉,准确性要求又极高,很难做成一个 Copilot。
但如果做好了,反过来,模型能力的提升,又解锁了客服场景的新体验。比如因为 AI 的高情商,在承担客服的过程中,甚至还当上了销售,用户本来是要修手机,最后却购买了一台新的手机。


