跟着导航App语音播报来一场Citywalk,听一部情节跌宕的有声小说,与虚拟人来一场有趣对话,语音技术已经走进我们生活的方方面面。大模型浪潮,赋予了AI语音“温度、情感与个性”,甚至独一无二的“说话方式”。
2024年,讯飞推出了逼真流畅的超拟人合成技术,以及更懂情绪的一句声音复刻技术。今年6月,一句话声音复刻技术迎来突破,在中文的相似度和准确度上显著提升,实现了“又像又自然”;超拟人合成则在多轮交互中实现效果显著提升,带来更真实体验。
现在,讯飞自研的语音合成大模型底座技术再次升级,不仅能够精准实现多属性的指令控制合成,让声音复刻更加灵活百变,更能支持长上下文的情感自适应合成能力,让超拟人合成更加温暖共情。
基于主流开源和闭源语音合成系统的客观效果评测集,讯飞TTS在中文测试集上词错误率WER最低,取得了SOTA语音合成效果,超越其它多个主流模型。
*数据来源:公开论文和开源信息(seed-tts-eval开源测试集:https://github.com/BytedanceSpeech/seed-tts-eval)
让每个声音都有超能力
声音复刻的关键在于,保证音色(“形”)高度相似的基础上,实现说话人风格、韵律、情感等个人特质(“神”)的精准迁移,并能将其泛化应用到任何文本、情感和风格中。
此次,新升级的声音复刻,从海量数据中挖掘音色、语种方言、风格、情感、人设以及发音习惯等语音特性。通过解耦文本语义和说话人音色信息,在保留音色的同时,支持多语种、多方言、多风格、多情感等属性的控制。仅采用几秒钟的一句话音频,即可复刻出几十种不同表达的高质量专属音频,降低了对数据丰富度以及数据规模覆盖度的要求。
为了满足用户在多场景应用下的多样需求,在风格和情感多样性方面,支持小说、绘本、交互、新闻等7种风格,以及开心、悲伤等10+种情感,让创作者可以像一个导演,让创作者可以像一个导演,实现"一个声音多场景"的灵活应用,极大拓展内容创作的想象力。例如,内容创作者可以用小说风格制作有声小说,用绘本风格适配儿童故事,让语音创作更高效、更灵活;企业则可以将品牌代言人或标志性的声音快速复刻并标准化沉淀为统一的数字资产,随后高效生成覆盖产品宣传、员工培训、品牌广告、智能客服等全场景的标准化视听内容。
原声:
小说风格示例:
多情感示例:
在多语种多方言方面,实现中、英、日、韩、俄、法、西、阿语8大语种与粤、四川、天津、东北4种方言的深度覆盖,且每种音色可保持一致性输出,实现"同一人讲不同语言"的自然效果。对于企业来说,可以大幅提升内容营销效率,降低制作成本,将广告快速投放至不同国家和区域,加快市场拓展步伐。
原声:
四川话声音复刻:
多语种声音复刻:
在即将到来的2025科大讯飞全球1024开发者节,观众也可在现场感受百变声音复刻带来的神奇体验。
为声音注入“灵魂”
心理学家 Klaus Scherer 早在1994年就提出:人类对语音中的情绪真实性具有极高敏感性,能从中分辨真假情绪、心理状态和意图。
多数语音合成技术虽然通过学习海量语音样本,最终生成了一个“合理”的声音,但失去了人类语言中的个性、突发性和情绪张力,缺少了身体痕迹,就像套了个情绪模版,没有“活人感”。
最新升级的超拟人合成,创新性研发了多轮上下文信息建模方案,实现超拟人自适应情感合成技术,让对话更为自然。
首先,将语音交互中的历史多轮QA音频和文本进行编码,来感知用户的情感变化;
然后,通过合成大模型的自适应情感合成能力,合成的声音的情绪语气也会随之变化,给出恰当的情感回应,对话效果像和真人沟通聊天一样自然,提升语音交互的共情度;
最后,使语音合成从单句建模升级到多轮建模,在自然度、情感表达、节奏停顿等细节上表现更好,尤其在多轮交互中的效果显著提升。
同时,超拟人合成大模型对常见的咳嗽、清嗓、笑声、哭声等多种副语言进行建模,能够高度还原真人的副语言现象,实现自然拟人的合成效果,使其无限接近真实人类的交流模式。
(咳嗽)好冷啊,外面好像要下雨了,你早点回家呀,天黑之后就更凉了。
(打喷嚏)最近气温变化较大,注意早晚添衣呀,小心别感冒了。
(悄悄话)好,你稍等哈。我说话声音会小一点儿。你要查的卡尾号是……7894,对吧?余额查到了噢,是2350块。需要我再查点别的什么吗?
(冥想)闭上双眼,慢慢地将注意力放在你的呼吸上。感受空气进入你的鼻子,再缓慢呼出,将身体中的紧张和焦虑随着呼气一起排出体外。
现在,用户可以在讯飞星火APP的小星畅聊,选择发音人“聆小糖”进行对话,体验超拟人合成的最新效果
新升级的声音复刻和超拟人合成API均已上线讯飞开放平台,开发者可登录相关产品页进行咨询和调用,让数字人使用定制训练的专属音色,在智能客服、虚拟助手等交互场景中,实现更自然、更具特色的个性化语音交互。
https://www.xfzhizuo.cn/ai-tools/asset-train
在语音合成技术领域,讯飞有着深厚的技术积累,落地在教育、金融、汽车等领域。未来,讯飞将持续优化语音合成效果、拓展技术边界、探索更多创新场景,为用户带来更生动、更智能的语音体验。

