又是百花齐放的一周!
本周 AI 快讯 | 1 分钟速览
- 字节发布豆包大模型 1.8:面向多模态 Agent 场景优化,支持 256K 超长上下文,日均调用量突破 50 万亿 tokens,位居中国第一、全球第三。
- 字节发布 Seedance 1.5 pro:首次实现视频与音频原生联合生成,支持环境音、动作音和人声同步输出,具备电影级镜头调度能力。
- 阿里发布万相 2.6:国内首个支持「角色扮演」的视频模型,上传个人视频即可生成单人/多人合拍视频,单次时长达国内最高 15 秒。
- 小米开源 MiMo-V2-Flash:编程能力超越所有开源模型,SWE bench 得分 73.4%,官方称与 Claude Sonnet 4.5 相当,推理成本仅为后者 2.5%。
- 蚂蚁「阿福」月活突破 1500 万:国内 AI 健康管理类 App 第一,日均响应超 500 万健康提问,接入全国 5000+ 医院及近 200 个名医 AI 分身。
- 腾讯元宝上线「微信提醒」:添加元宝为微信好友后,发送包含事项和时间的消息即可设置定时提醒,支持语音输入。
- 商汤发布「小浣熊 3.0」:AI 办公智能体全面升级,PPT 直接输出成品,支持百万级数据秒级分析,业务分析周期缩短九成。
- OpenAI 发布 GPT-5.2-Codex:OpenAI 最先进智能体编程模型,SWE-Bench Pro 准确率达 56.4%,已发现并披露多个 React 安全漏洞。
- GPT Image 1.5 发布:图像生成速度提升 4 倍,API 成本下降 20%,ChatGPT 同步上线独立 Images 板块。
- ChatGPT 应用商店开放提交:基于 MCP 协议构建,首批应用预计 2026 年初上线,8 亿周活用户可浏览和搜索。
- ChatGPT 上线「聊天置顶」:全平台支持将重要对话固定在列表顶部,免费用户可用,最多置顶 3 个对话。
- ChatGPT 新增「个性化滑块」:可调节 AI 的暖心程度、热情度、简洁度和 emoji 使用频率,设置即时同步至所有对话。
- 谷歌发布 Gemini 3 Flash:MMMU Pro 测试以 81.2% 超越 GPT-5.2,输出速度达 218 tokens/秒,API 定价仅为 Pro 的四分之一。
- 谷歌将 NotebookLM 集成至 Gemini:笔记本可直接添加到对话上下文,支持内联引用跳转原文,已升级至 Gemini 3 模型。
字节发布「豆包大模型 1.8」,日均调用量突破 50 万亿 tokens
12 月 18 日,字节火山引擎在 FORCE 原动力大会上发布豆包大模型 1.8(Doubao-Seed-1.8),专为多模态 Agent 场景优化。新版本支持 256K 超长上下文,在工具调用、复杂指令遵循和 OS Agent 能力上均有增强;视频理解帧数从 640 帧提升至 1280 帧,可实现低帧率扫描与关键片段高帧率分析。
截至 12 月,豆包大模型日均 token 调用量已突破 50 万亿,位列中国第一、全球第三,较去年同期增长超 10 倍。已有超 100 家企业累计调用量突破万亿 token。火山引擎同步推出业内首个「AI 节省计划」,覆盖豆包及第三方开源模型,阶梯折扣最高可节省 47%。
字节发布「Seedance 1.5 pro」,实现原生音画同步生成
12 月 16 日,字节跳动 Seed 团队发布 Seedance 1.5 pro 音视频创作模型,首次实现视频与音频的原生联合生成。该模型支持环境音、动作音和人声同步输出,角色口型与语调拟合精度高,并原生支持多语言及方言,能捕捉不同语种的韵律特征。
Seedance 1.5 pro 具备电影级镜头调度能力,可执行长镜头跟随、希区柯克变焦等复杂运镜,适用于影视创作、短剧、广告及戏曲演绎等场景。目前已接入即梦 AI 和豆包 App,用户上传图片并输入提示词即可生成有声视频。
阿里发布「万相 2.6」,国内首个支持「角色扮演」的视频模型
12 月 16 日,阿里巴巴发布万相 2.6 系列模型,面向专业影视制作全面升级。作为国内首个支持「角色扮演」功能的视频生成模型,用户上传个人视频后,系统可提取角色外观与音色,按提示词生成单人、多人或合拍视频。同时支持音画同步、多镜头生成和声音驱动,单次生成时长达国内最高的 15 秒。
万相 2.6 可将简单提示词转换为多分镜脚本,自动保持镜头间主体与场景一致性。目前模型家族已支持文生图、图生视频、人声生视频、角色扮演等十余种视觉创作能力,在 LMArena 图生视频评测中位列国内第一。该模型已上线阿里云百炼平台和万相官网,千问 App 将于近期接入。
小米开源「MiMo-V2-Flash」,编程能力超越所有开源模型
12 月 16 日,小米发布并开源大模型 MiMo-V2-Flash,采用 MoE 架构,总参数 3090 亿,活跃参数 150 亿。其编程能力表现突出:SWE Bench Verified 测试得分 73.4%,超越所有开源模型,官方称性能与 Claude Sonnet 4.5 相当,但推理成本仅为后者的 2.5%。在 AIME 2025 数学竞赛和 GPQA Diamond 科学测试中均进入开源模型前两名。
通过 5:1 混合滑动窗口注意力机制,KV 缓存压缩近 6 倍,结合多 Token 预测技术,实现 150 tokens/秒的推理速度。原生支持 32K 上下文,可扩展至 256K。API 定价为输入 0.7 元/百万 token、输出 2.1 元/百万 token,目前限时免费。模型权重和推理代码以 MIT 协议开源,同步上线体验平台 MiMO Studio。
蚂蚁 AI 健康助手 AQ 更名「阿福」,月活突破 1500 万居国内第一
12 月 15 日,蚂蚁集团宣布将 AI 健康应用 AQ 正式更名为「蚂蚁阿福」,定位从工具升级为“AI 健康朋友”。新版本新增健康陪伴功能,包括健康小日记、健康小目标,并接入苹果、华为、vivo 等 9 大品牌智能设备数据同步。
目前蚂蚁阿福月活用户超 1500 万,居国内 AI 健康管理类 App 首位,日均响应健康提问超 500 万次,55% 用户来自三线及以下城市。应用已接入全国 5000 多家医院、近百万医生及近 200 个名医 AI 分身,支持报告解读、预约挂号、云陪诊等服务。
腾讯元宝上线「微信提醒」功能,一句话设置待办事项
12 月 19 日,腾讯元宝上线定时提醒功能。用户在微信搜索“元宝”并添加为好友后,发送如“提醒我明早八点抢票”等含事项与时间的消息,元宝即可自动识别并在指定时间通过服务通知提醒。支持语音输入,便于不擅长打字的中老年用户使用。
元宝自今年 4 月入驻微信以来,搭载混元与 DeepSeek 双引擎,中老年用户占比达 34%,高于同类 AI 工具。当前版本暂不支持重复提醒,方言识别能力仍在优化中。
商汤发布 AI 办公智能体「小浣熊 3.0」,百万级数据秒级处理
12 月 16 日,商汤科技发布 AI 办公智能体「小浣熊 3.0」,实现三大升级:PPT 从草稿直接输出成品,支持百万级数据秒级分析,企业场景分析精度达 95%,业务分析周期缩短九成。底层基于“日日新”大模型的智能体强化学习技术,移动端 App 同步上线。
小浣熊系列运营两年来,注册用户超 300 万,服务 1500 万个人用户及数千家企业。教育为其第一大应用场景,发布会现场商汤宣布向浙江大学图书馆捐赠教育版。
OpenAI 发布「GPT-5.2-Codex」,SWE-Bench Pro 准确率达 56.4%
12 月 19 日,OpenAI 发布 GPT-5.2-Codex,定位为最先进的智能体编程模型。在 SWE-Bench Pro 基准测试中准确率达 56.4%,Terminal-Bench 2.0 达 64%,均为当前最优成绩。相较前代,其在长上下文理解、大规模代码重构、Windows 环境适配及网络安全能力方面显著提升。
安全研究员 Andrew MacPherson 曾利用 GPT-5.1-Codex-Max 分析 React 漏洞时,意外发现并披露三个新安全漏洞。GPT-5.2-Codex 已向所有付费 ChatGPT 用户开放,API 访问将在未来几周上线。OpenAI 还计划推出“受信任访问”试点,供审核通过的安全研究人员使用完整网络安全功能。
OpenAI 发布「GPT Image 1.5」,生成速度提升 4 倍、API 降价 20%
12 月 16 日,OpenAI 推出新一代图像生成模型 GPT Image 1.5,实现三大升级:生成速度达上一代 4 倍,指令遵循能力增强,局部编辑时可保持光线、构图、人物外貌等细节不变。API 成本下降 20%,高质量百万像素图像约 0.133 美元/张,低质量版本低至 0.009 美元/张。
ChatGPT 同步上线独立图像生成板块 Images,内置电影海报、油画、时尚广告等预设风格模板。实测显示,GPT Image 1.5 在真实感与细节准确度上与谷歌 Nano Banana Pro 存在差距,中文文本渲染能力也相对不足。目前已向所有 ChatGPT 用户开放。
ChatGPT 应用商店开放提交,首批应用明年初上线
12 月 17 日,OpenAI 开放 ChatGPT 应用提交通道,开发者可通过 OpenAI Developer Platform 提交应用审核。App 应用目录已上线,供 8 亿周活用户浏览与搜索。用户连接应用后,可在对话中 @ 调用或从工具菜单启动,完成订餐、制作演示文稿、搜索房源等操作。
应用基于 Anthropic 开源的 MCP 协议构建,Apps SDK 处于 beta 阶段。首批审核通过的应用预计 2026 年初逐步上线。当前仅支持跳转外部网站完成实物交易,数字商品与订阅模式仍在探索。该功能暂未覆盖欧洲经济区、瑞士和英国。
ChatGPT 上线「聊天置顶」功能,最多可固定 3 个对话
12 月 19 日,OpenAI 推出 ChatGPT 全平台聊天置顶功能。网页端点击对话旁“...”菜单,移动端长按即可将重要对话固定在列表顶部。功能对所有用户开放(含免费版),最多可置顶 3 个对话。
该功能回应了用户长期反馈的对话查找难题。配合已有的对话重命名功能,可更高效地管理历史记录。
ChatGPT 新增「个性化滑块」,可调节暖心程度和 emoji 频率
12 月 19 日,OpenAI 更新 ChatGPT 个性化设置,新增滑块调节 AI 的暖心程度、热情度、简洁度和 emoji 使用频率。此前仅提供 Professional、Friendly 等 8 种预设人格,现支持更细粒度定制。设置变更即时同步至所有对话,不再仅限新对话生效。
此次更新源于用户对 GPT-5 初版“过于冷淡”的反馈。OpenAI 表示调整暖心度并非“阿谀奉承”,内部测评未发现谄媚倾向。系统还能主动感知用户偏好并建议调整,无需手动进入菜单。功能已覆盖网页端与 App,细粒度滑块正逐步开放。
谷歌发布「Gemini 3 Flash」,MMMU Pro 测试超越 GPT-5.2
12 月 17 日,谷歌发布 Gemini 3 Flash,定位为“以 Flash 速度提供 Pro 级推理”的高效模型。在 MMMU Pro 多模态理解测试中,以 81.2% 准确率超越 GPT-5.2 的 79.5%;Humanity's Last Exam 综合测试得分为 33.7%,与 GPT-5.2 的 34.5% 接近。输出速度达 218 tokens/秒,为 GPT-5.1 的 1.7 倍。
API 定价为输入 0.50 美元/百万 token、输出 3.00 美元/百万 token,仅为 Gemini 3 Pro 的四分之一。谷歌称该模型在思考任务中平均比 2.5 Pro 节省 30% token。Gemini 3 Flash 已成为 Gemini App 和搜索 AI Mode 的默认模型,全球用户可免费使用。自 Gemini 3 系列发布以来,谷歌 API 日均处理量已超 1 万亿 token。
谷歌将 NotebookLM 集成至 Gemini,笔记本可直接作为对话上下文
12 月 19 日,谷歌开始向 Gemini 用户推送 NotebookLM 集成功能。用户可在附件菜单中选择“NotebookLM”,将一个或多个笔记本直接添加至对话上下文。Gemini 将基于笔记内容回答问题,并提供内联引用,点击可跳转至原文位置。
此举打通了 NotebookLM 的深度文档分析能力与 Gemini 的通用对话能力。功能目前仅限网页版,移动端预计明年上线。同日,谷歌宣布 NotebookLM 已升级至 Gemini 3 模型,推理与多模态理解能力显著提升,并新增“Data Tables”输出格式。

