豆包大模型1.8正式发布:强化多模态Agent能力与智能上下文管理
今日,火山引擎正式发布新一代大模型——豆包大模型1.8,面向多模态Agent场景深度优化,显著提升工具调用、复杂指令遵循及OS级系统操作能力。
核心能力升级
多模态理解增强:支持低帧率解析超长视频(如1小时4分钟监控视频),在视觉判断准确性、空间理解、文档结构化解析及视频运动识别等维度超越Gemini 3;
原生智能上下文管理:支持自定义压缩策略,自动清除低价值历史工具调用信息,保障多步骤任务稳定执行;
超大上下文窗口:达256k tokens,最大输入224k、输出64k、内部思考容量64k;
高效推理性能:TPM(每分钟处理Token数)达5000k,RPM(每分钟请求数)为30k。
line: 0px;max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;vertical-align: bottom;height: auto !important;width: 661px !important;visibility: visible !important;">
实测显示,豆包1.8可规划并调度十余个工具,在多个电商平台完成耳机全网比价与最优推荐;亦可在长时视频中精准定位事故画面,并识别肇事车辆与时间戳,适用于电商、安全巡检、在线教育、质检等场景。
截至2025年12月,豆包大模型日均tokens调用量突破50万亿,较去年12月增长超10倍,较发布初期增长达417倍。
Seedream与Seedance双引擎升级:覆盖AIGC全创作链路
Seedream 4.5:图像生成再进阶
新一代豆包生图模型Seedream 4.5大幅提升复杂指令遵循与画面元素保持能力,融合更丰富的世界知识。支持创意合影生成、汽车结构化渲染、多角色卡通拼图、虚拟模特试穿及专业级营销海报生成。
Seedance 1.5 Pro:音画同步的影视级视频生成
作为Seedance 1.0的升级版,1.5 Pro实现“音画同出”,精准匹配角色口型与语义节奏,解决行业长期存在的音画不同步问题;原生支持多语言及中国各地方言。模型还强化了影视级镜头语言、微表情捕捉与叙事张力表达能力。
即将上线的“Draft样片”功能,支持先生成低分辨率样片验证创意,满意后再渲染高清成片,整体创作效率提升65%,无效成本降低60%。
面向企业的AI服务升级:“豆包助手API”与“推理代工”
截至2025年,已有超100万家企业及个人使用火山引擎大模型服务,覆盖百余行业;其中超100家企业累计tokens调用量突破1万亿。
豆包助手API:开箱即用的Agent能力
火山引擎正式推出“豆包助手API”,将豆包APP核心对话、思考、搜索、创作等Agent能力以API形式开放。首批四项文本相关能力已上线火山方舟,后续将拓展多模态理解、深度研究、视频通话等能力。谭待指出,豆包APP是国内用户规模最大的AI应用,也是中国技术难度最高的AI Agent之一,其背后系统历经数亿用户长期打磨。
AI节省计划:阶梯式成本优化
火山引擎推出业界首个「AI节省计划」,覆盖所有按量付费大模型(含豆包及开源模型),支持跨模型用量合并累计,采用阶梯折扣,最高可节省47%推理成本。
推理代工:免运维高吞吐推理服务
火山方舟正式上线“推理代工”服务,针对典型开源大模型提供经大规模验证的整套推理支持,包括弹性伸缩、全栈优化与分布式缓存。用户仅需上传加密模型参数,无需运维GPU或配置网络调度。
测试表明,相较自建集群,云上集群可降本约50%;进一步采用推理代工后,吞吐量较直接租赁GPU提升约1.6倍。火山引擎智能算法负责人吴迪表示,AI产业正走向训练与推理分工分层,低成本、高吞吐地“推理好”模型,已成为企业规模化落地的关键瓶颈。

