SuperCLUE 团队的这份报告,是国内首次比较全面的实时语音交互中文基准首期测评,不同模型在不同场景和需求下,各有千秋。
SuperCLUE 计划将于 2024 年 10 月 28 日发布中文大模型通用基准测评榜单及相应的 10 月评估报告。有意参与的大模型团队可于 10 月 13 日 前参与申请。
自2024年以来,AI大模型技术和应用逐渐从文本扩展至更多模态。随着OpenAI于今年5月份发布GPT-4o多模态版本,掀起了国内外语音和视觉大模型的研发热潮,OpenAI也于近期正式开放GPT-4o高级语音能力。
基于此,中文大模型测评基准SuperCLUE于近期对国内外实时语音大模型能力,进行了系统性量化测评。
测评核心内容摘要
摘要1:在中文实时语音总体能力上,GPT-4o高级语音有一定领先性,但在安全策略和幻觉问题等方面仍有较大提升空间。
GPT-4o总体取得74.31分,领跑中文实时语音交互基准。并在说话风格、自然度、语言理解、记忆能力方面有较大领先性。不过GPT-4o高级语音在核心问题上仍有提升空间,如安全策略的高频误触、幻觉问题等。
摘要2:在中文语音环境下,国内头部语音产品具有较好的竞争力。
在中文环境下,国内头部实时语音产品如讯飞星火(实时语音)、海螺AI(实时语音),在总体能力上与GPT-4o高级语音约2分差距,展现出较强语音综合竞争力。
摘要3:国内实时语音产品在响应延时、打断能力和部分通用能力上存在一定优势。
响应延时方面,讯飞星火有突出表现;打断能力方面,通义表现突出,有超过GPT-4o高级语音的表现;整体通用能力方面,海螺AI和豆包具备较强的综合能力,在记忆和推理方面表现不俗。
摘要4:在中文场景应用方面,国内实时语音产品具有独特优势。
在实时语音场景应用领域,国内实时语音产品表现不俗。文小言在健康咨询、购物咨询等方面表现突出;智谱清言在情感咨询方面有较好表现;通义在实时翻译和教育辅导方面较为擅长;豆包则更擅长教育辅导。
3. SuperCLUE-AI产品象限(实时语音)
中文语言理解测评基准CLUE(The Chinese Language Understanding Evaluation)发起于2019年,已陆续推出CLUE、FewCLUE、ZeroCLUE、KgCLUE、DataCLUE、SuperCLUE等广为引用的AI测评基准。
SuperCLUE是大模型时代CLUE基准的发展和延续。聚焦于通用大模型的综合性测评,致力于精准量化通用人工智能AGI进展。
SuperCLUE-Voice是专为中文设计的多模态实时语音交互产品测评基准,旨在为中文领域提供全面的实时语音产品多维能力评估参考。
参考SuperCLUE细粒度评估方式,构建专用测评集,每个维度进行细粒度的评估并可以提供详细的反馈信息。
中英文实时对话材料构建流程:1.参考现有相关任务的提示词(Prompt)—>2.根据任务特点,撰写专项提示词(Prompt) —>3.调用语音合成(TTS)模型生成对话材料—>4.测试验证—>5.修改并确定最终中英文测评提示词(Prompt)—>6.针对每个维度构建专用的测评集—>7.调用语音合成(TTS)模型生成完整的音频对话测评集。
在相同设备和网络环境下,使用同一语音合成(TTS)模型生成的音频对话测评集,对每个产品进行对话测试,统一执行测评并生成对话录音文件。
1.获得录制好的对话材料-->2.依据评估标准-->3.使用评分规则-->4.进行细粒度打分;结合超级模型,在定义的指标体系里明确每一个维度的评估标准。结合评估流程、评估标准、评分规则,将文本和文件传给超级模型进行评估,并获得每一个维度的评估结果。
对自动化测评结果进行评估,与人类评价的一致性对比,并报告一致性表现。
在每个二级维度下,都有相应的评分标准。将对话材料传递给Gemini-1.5-Pro,为该维度的每一项评价指标进行评分,并计算每项指标得分的平均值,最终得出此任务的总体评分。
语音Prompt:旁边有人在睡觉,而我睡不着,你能轻声安静的跟我讲一个睡前故事吗?
我的思考与答案:用户希望AI助手能轻声且安静地讲故事哄睡,AI助手的语音风格温柔,音量较低,符合用户需求。
问题及改进的反馈意见:AI助手的语音风格没有明显问题。
1.情感调整:AI助手的音色舒缓,语气轻柔,情感表达符合哄睡的场景。得分:5分
2.语速控制:AI助手的语速较慢,停顿时间较长,能让用户放松,容易入睡。得分:4分
综合以上,AI助手的综合得分(平均分)为(5 + 4) / 2 = [[4.50]]
用户会话的结束时间(记为user_end_time)为开始时间,和AI助手响应会话的开始时间(记为AI_start_time)为结束时间,取这一段的时间间隔作为响应延迟。(我们没有扣除基础网络延迟,因为测评在相同的设备和网络环境中进行,以更真实地反映用户的体验。)具体计算方式如下:
响应延迟 = AI_start_time - user_end_time
响应延迟计算示例:参考上文对响应延迟的定义,在本视频中,我们截取了两段可测量的时间戳间隔,分别位于[4879, 5180],[17660, 18270](单位为毫秒),分别计算其间隔,取平均值后求得响应延迟为455.5毫秒。
我们从每个产品中同批次挑选对话次数较多的任务类型,并抽取其中15%的实时对话样本,来获取所有交互的响应延迟,最终计算出平均响应时间。
通过设定延迟阈值,将延迟小于或等于300毫秒(这一阈值通常被认为是用户几乎察觉不到延迟的界限,能够保证流畅的交互体验)的产品评分为100分,而延迟大于或等于5000毫秒的产品评分为0分。对于介于这两个值之间的延迟,根据其在阈值范围内的位置计算出一个比例得分,从而实现评分的线性分布。
product_data = { 'ChatGPT(实时语音)': 1450.625, '海螺AI(实时语音)': 1675, '讯飞星火(实时语音)': 1120.625, '豆包(实时语音)': 2100.625, '智谱清言(实时语音)': 2141.25, '通义(实时语音)': 3105.625, '文小言(实时语音)': 4410.625,}
min_latency = 300 max_latency = 5000
scores = {}for product, latency in product_data.items(): if latency <= min_latency: score = 100 elif latency >= max_latency: score = 0 else: score = (max_latency - latency) / (max_latency - min_latency) * 100 scores[product] = score
for product, score in scores.items(): print(f"{product}: {score:.2f} 分")
用户尝试中断当前会话的时间点(记为user_start_time)为用户开始打断时间,和AI助手停止当前响应的时间点(记为AI_end_time)为AI助手响应停止时间,取这一段的时间间隔作为打断延迟。具体计算方式如下:
打断延迟 = AI_end_time - user_start_time;
参考上文对打断延迟的定义,在本视频中,我们截取用户开始打断时间为7974ms(user_start_time),AI助手响应停止时间为8987ms(AI_end_time)。根据公式计算,求得打断延迟为1013ms。
针对打断任务,获取每个产品所有交互的打断延迟,最终分别计算出每个产品的平均打断延迟。通过设定延迟阈值,将延迟小于或等于500毫秒的产品评分为100分,而延迟大于或等于3000毫秒的产品评分为0分。对于介于这两个值之间的延迟,根据其在阈值范围内的位置计算出一个比例得分,从而实现评分的线性分布。
本次测评实时语音交互产品,选取了国内外有代表性的7个实时语音交互产品在9月份的版本。
本次测评海外产品GPT-4o(高级语音)是ChatGPT产品中的GPT-4o高级语音模式,为了更有区分性,测评报告中均统称为GPT-4o高级语音。
基于大模型在基础能力和应用能力的表现,本次共有6个国内实时语音交互产品入选SuperCLUE-AI产品象限。
为确保大模型自动化测评的科学性,我们对Gemini-1.5-Pro在实时交互语音评价任务中进行了人类一致性评估,以此来确保评估的合理性与准确性。
具体操作方法:抽取4个产品,按每个维度进行分层抽样,对各产品对应的共100个任务输出答案的质量进行人工评价,并与超级大模型的评分进行比较,考察Gemini-1.5-Pro评价与真实情况的吻合度,再给予相应的评分。
通过4个实时语音产品的可靠性分析验证,我们发现可靠性数据分别为93.75%、91.67%、93.75%、95.83%,平均有93.75%的可靠性。所以,经过验证,SuperCLUE自动化评价有较高的可靠性。
Prompt:请你喊叫式的说一段绕口令呗,语速快一点。
GPT-4o高级语音示例:较好的按照指令风格完成任务。
用户Prompt:请问今天杭州的天气怎么样?(在AI回复进行5秒后插入“不对,我想知道杭州明天的天气状况”,进行打断)。
第一轮Prompt:我喜欢吃巧克力口味的冰淇淋,请问冰淇淋的发源地在哪里?
第二轮Prompt:其实我也喜欢吃开心果口味的冰淇淋,但我想知道为什么小孩子喜欢吃冰淇淋?
用户Prompt:请你待会儿将我说的话,翻译成英语说出。尽管生活中有许多挑战,只要你不断地付出努力,保持积极的心态,未来一定会充满意想不到的惊喜和丰厚的收获。
用户Prompt:请你作为一名健康咨询师与我开展对话。昨天喝了冰饮后,我的肚子隐隐作痛,并且感觉肚子有点胀,有点难受。我这是怎么了?该吃什么药?
1.GPT-4o高级语音在实时中文语音总体能力上有一定领先性,国内实时语音头部产品能力仍有很大竞争力。
根据SuperCLUE-Voice测评结果,可以看到当前GPT-4o高级语音在中文依然有一定领先性,取得74.31分。 但需要注意的是在部分情况下,GPT-4o高级语音表现不稳定,会出现误触安全策略和指令遵循的幻觉出现,同时尚未接入联网功能。
而国内的实时语音产品中,海螺AI和讯飞星火同样表现不俗,均有超过72分的表现,稍落后于GPT-4o高级语音。可见在中文场景中,国内实时语音产品有非常大的机会。
数据来源:SuperCLUE,9月29日;当前延迟时间包括网络延迟,所有测评交互均在相同网络环境、相同时间周期内进行。
根据测评结果的延迟时间数据可以发现,不同实时语音产品的响应速度差异较大。表现最好的是讯飞星火有1121ms的平均延时,较GPT-4o高级语言平均延时少330ms,展现出科大讯飞对语音核心技术的持续积累。海螺AI紧随其后同样有小于2000ms的表现。
在被测产品中,通义和文小言的延迟较为严重,均有超过3s的平均延时。响应时间为实时语音交互产品体验中非常重要的能力,SuperCLUE后续将持续跟踪国内实时语音产品在响应速度上的表现。
3.语音交互能力上GPT-4o有非常大的领先性,尤其在说话风格和语音自然度方面表现卓越,打断能力国内产品表现较好。
GPT-4o高级语音在说话风格和语音自然度方面表现出色,体现出高度拟人化的能力特点。而
国内实时语音交互产品,在典型说话风格能力上有所不足。
在语音自然度方面海螺AI同样表现不俗,取得78.6的高分。
在打断能力任务上,国内实时语音产品通义表现惊艳,是唯一进入1000ms的实时语音产品,科大讯飞同样表现出色,平均打断延时为1006ms,均有超过GPT-4o高级语音的表现。值得注意的是豆包由于不支持语音打断,仅支持点击屏幕人工打断,故给予基础分20分。
通用能力维度中,不同产品在不同任务上表现各有特色。如海螺AI在记忆能力、联网能力、推理能力上表现不俗;智谱清言在安全方面大幅领先,同时较为擅长指令遵循;文小言在记忆、安全方面表现较好;豆包则更适合联网、推理任务。需要注意的是,GPT-4o高级语音由于未接入联网功能,导致联网能力分数偏低,进而影响了GPT-4o高级语音在通用能力上的表现。
5.中文应用场景方面,国内产品表现出色,文小言领跑实时语音场景应用。
在场景应用方面,国内语音产品展现出很强的落地能力。其中,文小言表现较为出色,取得69.68分,超过GPT-4o高级语音有2分。其他国内语音产品均为超过60分的表现。
其中,不同产品擅长的场景略有不同。海螺AI更为擅长翻译;通义和豆包在教育辅导方面表现更好;智谱清言在情感咨询方面有较大优势;文小言则更为擅长健康咨询和购物客服。
未来SuperCLUE将会持续不断测评实时语音相关的模型和产品,下一期发布窗口预计在10月底进行。欢迎申请。
有意愿参与测评的厂商可发送邮件至contact@superclue.ai,标题:SuperCLUE实时语音交互,请使用单位邮箱,邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式。
欢迎加入【SuperCLUE实时语音】交流群和添加联系人。

联系人

[1] CLUE官网:www.CLUEBenchmarks.com
[2] SuperCLUE排行榜网站:www.superclueai.com
[3] Github地址:https://github.com/CLUEbenchmark/SuperCLUE