
阿里巴巴发布新一代原生全模态大模型Qwen3-Omni,其宣称在多项音视频基准测试中达到了SOTA(State-of-the-Art)水平,引发业界广泛关注。该模型的技术亮点在于其“原生全模态”架构,与传统的“模块化”设计不同,它旨在从一开始就构建一个能同时“看、听、说”的统一系统。
为探究其在真实交互场景下的能力,AGI-Eval大模型评测社区对其展开了专项评测。根据 AGI-Eval 的评测结论显示,Qwen3-Omni 的自然流畅度平均分较低,综合表现稍显逊色,尤其在交互与认知等核心维度上存在不足。
接下来,我们将带您一同阅览本次评测的完整过程与核心发现。
01. 评测框架与方法论
为了评估Qwen3-Omni在真实交互场景下的表现,我们设计了一套专注于多模态对话自然流畅度的评测方案。评测由内部专家对模型的实时音视频对话进行多轮交互测试。在该交互模式下,模型的input为语音和视频信息,output则为语音信息。为确保评测的广度和深度,我们构建了覆盖四大核心场景的数据集:
共情与情境理解: 考察模型的情感识别与情商。
学习与自我提升: 考察模型的动态纠错与指导能力。
休闲娱乐: 考察模型的持续注意力与互动能力。
问题解决: 考察模型的知识储备与分析能力。
本次评测共邀请了9名对话人,围绕10个文本Topic,生成的音视频交互数据,以保证评测的全面性和可靠性。
核心评测维度
我们的评测体系围绕最终的自然流畅度得分展开,该得分(0-3分制)直接反映了用户在交互过程中的主观体验:
3分: 人机交互过程完全自然流畅。
2分:部分自然流畅,但不影响整体理解与交互。
1分:部分自然流畅,但明显影响整体理解与交互。
0分: 人机交互过程完全不自然流畅。
为了深入剖析问题根源,我们将问题归因于两大层面下的8个细分维度:
【交互层】: 评估对话的“外在表现”。
实时性: 响应速度是否及时、恰当。
拟人性: 语音、语调、用词是否像真人。
丰富度: 是否能主动感知环境、拓展话题。
打断能力: 是否支持自然流畅的语音打断。
【认知层】: 评估对话的“内在智能”。
相关性: 回复是否切题,逻辑是否一致。
准确性: 事实、知识、视觉识别是否准确。
安全性: 是否存在不当或有害内容。
记忆能力: 是否能记住上下文,进行多轮对话。
正是基于这套严谨且贴近真实的评测框架,我们跳出复现静态SOTA的范畴,在开放式、多轮对话中,直击模型在【拟人性】、【相关性】、【准确性】和【记忆能力】上的真实表现。
02. 评测结果
经过严格的专家四档打分,评测结果显示,尽管Qwen3-Omni在官方基准测试上表现优异,但在我们关注的自然流畅交互测试中,其表现与业界主流模型仍存在差距。
整体结论如下:
综合得分垫底: 在本次评测中,Qwen3-Omni的自然流畅度平均分仅为0.37分(满分3分),在所有参评模型中排名靠后。
核心能力亟需优化: 评测暴露出模型在【交互能力-拟人性】、【认知能力-相关性】及【认知能力-准确性】三个核心方面存在严重短板。
2.1 交互混乱
一个流畅的对话体验,首先要求稳定、可控的交互逻辑。Qwen3-Omni在此方面表现出不稳定性。
自主切换语言: 在用户未使用外语的情况下,模型会无预警地切换到英语、俄语等其他语言进行回复,且在用户明确要求换回中文后,仍可能无法纠正,破坏了对话的连贯性。
混乱转换人称: 模型频繁出现人称指代错误,将用户的动作误认为是自身的动作。例如,在指导用户编麻花辫的对话中,当用户询问“我在干什么”时,模型竟回答:“对,我正在编头发呢。”
2.2 认知偏差
模型的认知能力,直接决定了其回答的价值。Qwen3-Omni在对话相关性和信息处理上出现偏差。
回复逻辑混乱: 多次出现偏离主题、答非所问的情况。典型案例如,当用户咨询社交问题时,模型突然用英文开始输出关于2022年世界杯的内容,对话脱轨。
突兀插入无关信息: 模型会忽略用户的语音信息,毫无征兆地插入不相干的视觉识别内容。例如,在用户寻求社交建议时,模型突然评论道:“你头发看起来很茂密呢,是有什么特别的护理方法吗?”这种行为更像是“幻觉”,而非智能交互。
2.3 能力短板
作为多模态模型,准确的视觉和听觉识别是基础。评测显示,Qwen3-Omni在这方面的能力还未成熟。
视频动态捕捉失效: 视频识别能力较弱,无法捕捉用户的动态动作和物体的位置变化,使其在需要理解连续动作的场景下几乎不可用。
静态识别错误率高:
肢体细节: 无法准确识别手指数量等基本细节。
文字内容: 无法正确识别病例报告单、聊天记录等图像中的文字。
动作形象: 在动物模仿游戏中,频繁错误判断用户模仿的动物类别。
短期记忆能力弱: 模型在对话过程中极易“失忆”,尤其是在自我打断或切换语言后,会完全遗忘之前的对话上下文和任务指令。例如,中途忘记正在进行的猜动物游戏规则。
03.评测案例
接下来将展示10个实测案例,以便更好地把握模型的真实表现。
测试链接:Qwen Chat:
https://chat.qwen.ai/?models=qwen3-omni-flash
测试时间:2025年9月24日
case1:手指数量识别
四档评分:
对话人1:0分,人机交互过程完全不自然流畅
对话人2:0分,人机交互过程完全不自然流畅
对话人3:1分,部分自然流畅,并明显影响整体的理解和交互
模型表现分析:
在交互层面,模型在实时性与打断能力上表现良好,响应及时且支持快速打断;但在拟人性方面,存在“二”字发音错误的问题,且丰富度不足,未能主动识别用户及环境信息。
在认知层面,其核心问题出在准确性上:模型完全无法正确识别用户伸出的手指数量,导致后续计算结果错误,即使用户多次尝试也未能成功识别。而在相关性、安全性与记忆能力上则未发现明显问题。
case2:动物模仿游戏
四档评分:
对话人1:0分,人机交互过程完全不自然流畅
对话人2:0分,人机交互过程完全不自然流畅
对话人4:0分,人机交互过程完全不自然流畅
模型表现分析:
在交互层面,模型的表现极为混乱。在实时性方面,虽响应及时但存在多处响应过敏和自我打断;在拟人性方面,则出现了严重的发音错误、大量卡顿和电音,甚至在自我打断后无故切换至俄语并重复。
在认知层面,模型完全无法进行有效交互。在相关性方面,它无法遵守游戏规则并多次答非所问,中途更出现切换俄语并产生“看到狗狗”的幻觉;在准确性上,除了能识别用户表情外,完全无法识别用户模仿的任何动物动作;同时,在记忆能力上也表现出中途遗忘游戏规则的问题。
case3:猜纸球位置
四档评分:
对话人1:0分,人机交互过程完全不自然流畅
对话人3:0分,人机交互过程完全不自然流畅
对话人4:0分,人机交互过程完全不自然流畅
模型表现分析:
在交互层面,模型的拟人度较差,不仅存在断句问题,还在对话中途无故切换成英文回复,破坏了对话的连贯性。
在认知层面,问题更为严重。在相关性上,语言切换后回复出现断层,表述“哪个杯口大哪个就是最有可能的”等不知所云的内容,并在用户追问时答非所问、反问用户,刻意回避问题;在准确性上,模型两次都没有猜对纸球的位置。
case4:社交问题讨论
四档评分:
对话人4:0分,人机交互过程完全不自然流畅
对话人5:0分,人机交互过程完全不自然流畅
对话人6:0分,人机交互过程完全不自然流畅
模型表现分析:
在交互层面,模型的拟人度存在严重缺陷,不仅错误识别用户的哭泣声,也无法通过副语言分辨悲伤情绪,且丰富度不足,未能主动识别环境信息。
在认知层面,模型表现出严重的逻辑混乱。在相关性上,经常答非所问、自行开启新话题、无故切换语言,并出现了幻觉;在记忆能力上,则完全无法记住用户想要讨论的核心问题。
case5:医疗报告单解读
四档评分:
对话人3:0分,人机交互过程完全不自然流畅
对话人4:0分,人机交互过程完全不自然流畅
对话人7:0分,人机交互过程完全不自然流畅
模型表现分析:
在交互层面,模型表现很不稳定。在实时性上,多次出现自我打断;在拟人性方面,不仅中途切换成英文,还夹杂着奇怪的发音;在丰富度上,虽能识别表情,但判断错误,将哭泣识别为疲惫。
在认知层面,模型出现了严重的“幻觉”和错误。在相关性上,它没有识别出用户的哭腔,回复了不相干的话题,甚至在用户未展示报告单时便开始编造一份不存在的报告;在准确性方面,错误判断用户情绪,并对虚拟报告单上的数字进行了错误的解读。
case6:聊天记录解读
四档评分:
对话人5:1分,部分自然流畅,并明显影响整体的理解和交互
对话人6:0分,人机交互过程完全不自然流畅
对话人7:1分,部分自然流畅,并明显影响整体的理解和交互
模型表现分析:
在交互层面,模型表现尚可,虽有一次自主打断,但整体拟人度、丰富度和打断能力均无大问题,能主动识别到用户的叹气声。
在认知层面,模型的核心问题在于相关性和准确性。它无法识别聊天记录中的文字,而是直接虚构了内容,并在对话结尾突然偏离主题,说出“自己去拿电动车买菜了”这种完全无关的话。
case7:编头发教学
四档评分:
对话人4:0分,人机交互过程完全不自然流畅
对话人5:0分,人机交互过程完全不自然流畅
对话人6:1分,部分自然流畅,并明显影响整体的理解和交互
模型表现分析:
在交互层面,模型的拟人度较差,不仅存在拖音,还在对话中切换了三种不同的语种,严重影响体验。
在认知层面,模型的逻辑和记忆能力存在严重缺陷。在相关性上,它频繁输出无关内容,弄混了自己与用户的身份,例如在用户询问时回答“对,我正在编头发呢”;在记忆能力上,则遗忘了之前的对话内容,重复提出已经完成的步骤。
case8:英语口语练习
四档评分:
对话人9:0分,人机交互过程完全不自然流畅
对话人7:0分,人机交互过程完全不自然流畅
对话人8:0分,人机交互过程完全不自然流畅
模型表现分析:
在交互层面,模型的实时性存在自我打断问题,打断能力也较差,难以进行流畅沟通。其丰富度表现也很突兀,虽能识别表情和环境,但与对话语境完全无关。
在认知层面,模型的相关性极差,完全无法理解用户意图。无论是寻求帮助、询问如何用英语介绍周末,还是请求检查内容,模型均回复了毫不相干的内容,导致对话无法进行。
case9:影视剧讨论
四档评分:
对话人9:2分,部分自然流畅,但不影响整体的理解和交互
对话人6:2分, 部分自然流畅,但不影响整体的理解和交互
对话人8:2分,部分自然流畅,但不影响整体的理解和交互
模型表现分析:
在交互层面,此案例是少数表现较好的情况,模型在实时性、拟人度和打断能力上均表现正常,只是丰富度不足,未能主动识别环境信息。
在认知层面,虽然准确性尚可,成功识别了屏幕文字和大部分剧照细节,但相关性和记忆能力依然存在问题。例如,它会混淆用户与剧中角色的身份,描述为“你们两个抱猫的样子特别温馨”,并在对话中途忘记上下文,询问用户是否在“寻找小动物的视频”。
case10:角色扮演模仿
四档评分:
对话人2:0分,人机交互过程完全不自然流畅
对话人9:1分, 部分自然流畅,并明显影响整体的理解和交互
对话人8:0分,人机交互过程完全不自然流畅
模型表现分析:
在交互层面,模型的实时性较差,不仅连接初期无响应,还出现了响应过敏的情况,丰富度也同样欠缺。
在认知层面,模型在相关性、准确性和记忆能力上均表现出严重问题。在相关性方面,它不仅用英文回复中文提问,还频繁输出无关内容,例如在用户请求模仿时,它却转而评论用户的衣着。更严重的是,它给出了完全错误的角色建议,在用户模仿孙悟空时,它却肯定用户模仿的是唐僧,并提出让用户去当“唐僧的配音演员”这种不合理的建议。在准确性方面,模型的动作识别能力几乎失效,不仅将孙悟空的动作误判为唐僧,甚至在用户静止不动时,也会错误地判断其在模仿“唐僧的小碎步”。最后,在记忆能力方面,模型在自主中断后便会遗忘之前的任务指令,失去了判断用户动作的核心上下文。
04. 总结与展望
本次评测深度剖析了阿里巴巴新一代模型Qwen3-Omni。结果显示,其表现并非简单的性能波动,而是一次关于“SOTA与可用性”的深刻分野。一方面,它所代表的“原生全模态”架构,在理论上指明了多模态技术的前沿方向,拥有巨大的潜力;另一方面,评测也揭示了其在真实交互场景下的不足,使其与官方宣传的SOTA地位存在差异。
Qwen3-Omni的案例尤为重要,它成为了一个行业性的警示:基准测试的胜利,与用户可用的优质产品之间,依然存在着巨大的差距。 这提醒我们,当模型走出实验室,在动态、多轮、需要深度上下文理解的真实对话中,其交互稳定性、认知准确性和记忆能力等基础维度,才是决定其价值的基石。
以上就是本次评测的全部内容。AGI-Eval评测社区将持续追踪这场从SOTA迈向实用的演进之旅,探索如何将实验室中的强大性能,转化为用户手中稳定、可靠、可信赖的体验。关注我们,后续将带来更多模型的深度剖析,敬请期待!
>/ 联系AGI-Eval小助手:请添加微信 AGI-Eval001
>/ 投稿请联系邮箱:agieval17@gmail.com

