Qwen3.5-Omni原生全模态模型发布,突破多模态AI处理边界
近日,Qwen3.5-Omni正式推出,作为原生全模态大模型,统一处理文本、图像、音频和视频的理解与生成,无需模块拼接。
区别于传统多模态模型的拼接式架构,Qwen3.5-Omni采用Thinker-Talker架构实现全模态原生处理:Thinker负责跨模态深度推理,Talker实现实时语音输出,共享统一表征空间,避免信息翻译损耗。
该模型在215项子任务中刷新SOTA纪录,音频理解、推理、识别、翻译及对话能力全面超越Gemini-3.1 Pro,同时保持Qwen3.5同尺寸级别视觉与文本性能。
发布演示视频重点展示实际交互场景:Qwen3.5-Omni可对时间线视听信息进行同步解析,实现细粒度结构化描述。
看见你看见的
模型自动切片视频、标注时间戳,精准识别画面人物、动作与空间关系,并同步分析音轨背景音效与对话内容。如处理《舌尖上的中国》片段时,生成结构化场景描述;在复杂电影片段中,可区分角色对话、解析背景音乐情绪、描述镜头调度。实际应用于内容合规审查,自动输出违规类型、风险等级及时间段摘要,大幅替代人工逐帧审核。
听懂你说的
模型原生支持多轮语义打断,区分用户有意提问与背景杂音,实现论文共读等场景的实时交互。其歌词字幕生成功能精确处理113种语言及36种方言,如粤语Rap输出保持原语种行文。基于1亿小时音视频数据的原生多模态预训练,语音识别与生成能力较上代显著提升。
从「看视频」到「写代码」
模型展现出Audio-Visual Vibe Coding能力:观察音乐游戏视频后直接生成可运行代码;解析产品原型演示视频转化为前端代码。该能力源于Hybrid-Attention MoE架构,使所有模态token在同一潜空间联合训练,避免翻译损耗。技术报告指出,这是原生多模态Scaling涌现的因果关系建模能力,标志着2026年全模态AI将实现深度交互与开发支持。

