Runway 发布世界模型，模拟实时环境和可交互数字人；Qwen3-Omni 升级，视频语义理解与音视频同步能力持续优化丨日报



Runway 发布世界模型，模拟实时环境和可交互数字人；Qwen3-Omni 升级，视频语义理解与音视频同步能力持续优化丨日报

RTE开发者社区

2025-12-12

导读：本期关键词：GPT-5.2、声形意合、一机难求

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@瓒an、@鲍勃

有话题的技术

1、GPT-5.2 正式发布，狙击 Google Gemini 3

今天凌晨，OpenAI 正式发布 GPT-5.2 系列模型，面向 ChatGPT 付费用户与开发者 API，分为 Instant、Thinking、Pro 三个版本，定位为更可靠的生产级模型。

Instant 版：强调低延迟与高响应，适配信息查询、文档翻译、基础写作等常规任务
Thinking 版：聚焦编程、长文档分析、数学推理与项目规划，定位企业级复杂场景的智能助手
Pro 版：面向科研、金融与高难度任务，强调极致准确性与可靠性，被称为「能力天花板」

在技术性能方面，GPT-5.2 在编程能力、数学与科学计算、事实准确性以及多模态处理上均有显著提升，能够直接生成表格、制作 PPT、编写多语言代码，进一步强化其在专业场景中的生产力定位。

同时，OpenAI 宣布计划在 2026 年第一季度上线成人模式，并将知识库更新至 2025 年 8 月，以保证信息的时效性与准确性。

此前，面对 Google Gemini 3 的竞争，OpenAI CEO 奥特曼已在公司内部开启「红色警报」。

他承认，Google 在预训练方面的成功已缩小了双方差距，并可能带来经济压力。为此，OpenAI 正在调整战略，暂时放缓 AGI 目标，全力提升 ChatGPT 的质量，以应对竞争。

奥特曼当地时间周四在接受 CNBC 采访时表示，Google 的「Gemini 3」对公司指标的影响低于预期，并预计 OpenAI 将在 1 月退出「红色警报」。

OpenAI 应用业务 CEO Fidji Simo 称，此次发布并非因本周竞争驱动，而是经多月整合推进的成果。

GPT-5.2 现已在 ChatGPT 陆续开放并优先覆盖付费用户；GPT-5.1 将在「传统模型」选项中保留三个月后下线。API 同步开放，价格较 GPT-5.1 更高，但因 token 效率提升，总成本预期更低。

今天，OpenAI 还与迪士尼达成了三年授权协议。用户可以生成包含迪士尼、漫威、皮克斯和星球大战等 200 多个角色的社交视频，部分生成视频还可在 Disney+ 上播放。

作为交换，迪士尼向 OpenAI 投资 10 亿美元，并将成为后者的重要客户。

( @APPSO)

2、Runway 发布 GWM-1 世界模型，Gen-4.5 视频模型支持原生音频与长视频

昨夜，Runway 正式发布其首个通用世界模型（General World Model， GWM-1），并更新 Gen-4.5 视频模型。GWM-1 通过逐帧预测，模拟物理和世界动态，旨在训练机器人、生命科学等领域的智能体。

GWM-1 系列模型：

GWM-1 核心：采用自回归架构，理解物理和世界行为，支持用户通过提示或图像参考设置场景，并在 720p/24fps 下进行交互式探索。
GWM-Worlds：实时环境模拟应用，用户可导航生成空间。
GWM-Robotics：专为机器人训练设计，通过合成数据（含天气、障碍物参数）加速开发。
GWM-Avatars：模拟人类行为，生成逼真的交互式数字人，支持音频驱动的自然响应。
模型整合：Runway 计划将 Worlds， Robotics， Avatars 合并为一个统一模型。

Gen-4.5 更新：

原生音频与多镜头：新增原生音频生成与编辑功能，支持长视频（如 1 分钟视频）、多角度镜头（multi-shot）生成，角色一致性及口型同步。
产品可用性：Gen-4.5 更新已面向所有付费用户开放；GWM-Robotics 将通过 SDK 提供，并与多家机器人公司及企业洽谈合作。

Runway 计划在未来几周内通过 Web 产品和 API 向用户开放这些新模型。

( @TechCrunch)

3、阿里通义 Qwen3-Omni 新升级：声形意合，令出智随！

昨天，阿里通义正式发布基于 Qwen3-Omni 的全面升级版本「Qwen3-Omni-Flash-2025-12-01」。

据介绍，新模型可无缝处理文本、图像、音频、视频输入，并以流式方式同时生成自然语音与文本输出，整体针对多模态交互的准确性与效率进行增强。具体升级如下：

音视频理解与执行： 面向口语化场景显著提升对音视频指令的理解与执行能力，缓解多模态对话中的「降智」问题；多轮音视频对话的稳定性与连贯性增强，交互更自然顺畅。
系统提示可控： 全面开放 System Prompt 自定义，可精细调控模型行为（如人设风格、口语化偏好、回复长度等），提升可控性与一致性。
多语言遵循： 支持 119 种文本语言交互、19 种语音识别语言与 10 种语音合成语言，优化上版语言遵循不稳定问题，确保跨语言场景下响应准确一致。
语音生成拟人化： 解决语速拖沓与机械感，提升对于语速、停顿与韵律的自适应调节，语音表达更自然生动。
视觉与视频理解： 在多学科视觉问答与数学视觉推理任务上取得进展，视频语义理解与音视频同步能力持续优化，为实时视频对话打下基础。

官方表示，后续将推进多说话人 ASR、视频 OCR、音视频主动学习等核心能力建设，并强化基于智能体的工作流与函数调用支持，以进一步提升复杂场景下的可控性与执行力。

( @APPSO)

有亮点的产品

1、拓竹 MakerWorld 接入腾讯混元 3D 3.0，上线「印你」图生 3D 手办生成器

拓竹科技（Bambu Lab）旗下 3D 模型平台 MakerWorld 已接入腾讯混元 3D 3.0 模型，并推出「印你」手办生成器。该功能允许用户上传一张人像图片，快速生成高质量、可打印的 3D 模型，大幅降低 3D 手办制作门槛。

「印你」生成器核心能力：

简化流程：用户只需上传一张人像图片，系统自动完成 2D 立体图生成、背景消除、风格化处理，最终转化为精确还原面容、衣着和姿态的 3D 模型。
AI 驱动：核心技术源自腾讯混元 3D 3.0 模型，采用 3D-DiT 分级雕刻技术。

混元 3D 3.0 技术亮点：

精度提升：建模精度提升 3 倍，几何分辨率高达 1536³，支持 36 亿体素超高清建模。
面部与细节：专项优化人物生成，重塑面部轮廓，提升体态自然度；通过分级策略，实现关节、机械边缘等细节的锐利呈现。
纹理逼真：优化纹理遵循度和几何对齐精度，确保打印成品真实贴合。

此次合作使 MakerWorld 平台的设计周期大幅缩短，让 3D 打印爱好者和入门用户无需专业建模技术即可创作。

2、夸克 AI 眼镜「一机难求」，二手市场价格飙至 6999 元

夸克 AI 眼镜在发布后市场需求远超预期，线上线下均出现「一机难求」的情况。核心供应商透露，夸克已在工厂新增一条组装产线，产能预计从下周开始逐步释放。

立讯内部人士表示，夸克团队上个月已密集进驻工厂，新增产线以加快出货。至格科技创始人孟祥峰则指出，公司正在加紧生产夸克 AI 眼镜的大批光波导片订单，新购设备已全面投入使用。

夸克内部人士透露，团队的主要目标是确保在明年 1 月能够充分释放产能，以赶上春节消费热潮。

今年 11 月，夸克发布 S1、G1 两个系列共六款单品，其中 S1 系列最低售价为 3799 元，G1 系列起售价为 1899 元。这也是阿里旗下大模型「千问」首次走出屏幕，进入物理硬件形态。

目前，天猫、抖音、京东等平台上的夸克 AI 眼镜 S1 均处于「上架即售罄」状态。

在闲鱼等二手交易平台，现货价格最高被炒至 6999 元。线下渠道方面，多家合作门店表示暂无现货，新订单普遍需要等待约一个月甚至 40 天。

( @APPSO)

有态度的观点

1、微软消费者 AI 业务负责人苏莱曼：要创造「符合人类利益」的超级智能

12 月 12 日消息，北京时间今天凌晨，据彭博社报道，微软消费者生成式 AI 主管穆斯塔法・苏莱曼强调，要推动一种「符合人类利益」的超级智能，并承诺如果出现危及人类的结果，就会立刻停止。

苏莱曼在彭博《The Mishal Husain Show》节目中表示，公司绝不会继续推动任何可能脱离控制的系统，这种观点本应是行业常识，但目前仍属少见。

去年年初，微软收购了苏莱曼的初创公司 Inflection AI 的知识产权和大部分员工。之后，苏莱曼加入微软。

此前，微软的大部分 AI 工具主要依赖 OpenAI，而在苏莱曼入职后，微软便开始责成其开发能够与业内最佳产品相媲美的产品。

（@IT 之家）

加入我们的 Voice Agent 社区

RTE 开发者社区持续关注 Voice Agent 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣，也期待和更多开发者交流（每个月都有线上/线下 meetup，以及学习笔记分享），欢迎加入我们的社区微信群，一同探索人和 AI 的实时互动新范式。

加入我们：加微信 Creators2022，备注身份和来意（公司/项目+职位+加群），备注完整者优先加群。

更多 Voice Agent 学习笔记：

Pion 创始人聊 WebRTC、AI、SIP 和 QUIC I Voice Agent 学习笔记

2025 年语音 AI 趋势十大洞察丨Voice Agent 学习笔记

硅谷顶级 VC 如何看语音 AI？Greylock 合伙人揭秘 Voice Agent 构建的三层策略

AI 客服还不够聪明，但已超过月薪五千的人类丨RTE Meetup 回顾

引爆 AI 会议工具潮流，Granola 打造 2.5 亿美元估值产品的秘密丨Voice Agent 学习笔记

活动回顾丨主动式语音 AI：全双工加持，让 AI 既会抢答也懂适时沉默丨RTE Meetup

GPT-4o 之后，Voice 从 Assistant 到 Agent，新机会藏在哪些场景里？｜Voice Agent 学习笔记

对话 Wispr Flow 创始人 Tanay：语音输入，如何创造极致的 Voice AI 产品体验

Notion 创始人 Ivan Zhao：传统软件开发是造桥，AI 开发更像酿酒，提供环境让 AI 自行发展

ElevenLabs 语音智能体提示词指南——解锁 AI 语音交互的「灵魂秘籍」丨 Voice Agent 学习笔记

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

【声明】内容源于网络

RTE开发者社区

RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流，我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源，我们将陪跑开发者，共享、共建、共成长。

内容 1122

粉丝 0

RTE开发者社区 RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流，我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源，我们将陪跑开发者，共享、共建、共成长。

总阅读33

粉丝0

内容1.1k