想足不出户游览祖国大好河山?
与表情丰富、情感细腻的虚拟人对话,无需穿戴设备就能“打破”空间界限,“说走就走”带你“瞬移”到旅游景点,目及之处皆是美景、远观近瞧随心所欲,开启一场身临其境的沉浸式“云旅游”。

“无监督学习”新突破
“AI超脑”更懂知识
“支撑讯飞超脑2030计划的发展,有两个关键算法亟待突破,无监督学习和知识推理。”高建清说,前者要实现实用化、场景化的预训练技术,后者要构建基于知识检索、决策以及融合的推理系统。
科大讯飞设计了基于无监督学习的预训练框架,并创新使用了少量有监督数据进行优化,大幅提升训练效率。
针对多模语音识别、情感识别等多模态任务,全新的预训练框架对音频、人脸等不同模态的输入“一视同仁”,利用其中内容、表情及身份等信息的关联性进行融合,可设计出不同的训练目标。而少量有监督数据构建码本,让训练机时下降八成,实现了实用化预训练。
在无监督学习的预训练算法框架下,讯飞开放了轻量化的中文语音、中英文多模态预训练模型,高建清说,“预训练模型支持语音识别、声纹识别、情感识别、多模态语音识别等多个任务,参数量远远少于业界公开的模型,但效果却达到了业界最优。”
在知识推理方面,以回答“面包在低温下会马上发霉吗”为例,机器要理解“低温变质慢”等常识,在引入海量知识的基础上,要用预训练模型进行知识重要性排序,也要融合知识与问题进行推理,才能与人畅聊“面包变质的二三事”。同时,提出了知识与问题融合的Across attention model,实现问题和知识之间的充分交互,从而实现更有效的知识推理。
此外,科大讯飞还探索将神经网络与符号推理相结合,实现了推理过程的可解释性。应用于小学平面几何题上,这个推理系统让AI答题的正确率从完全不可用,提升到了90%的水平,显著优于传统推理系统。

“唇形+语音”多模感知
“唤醒”人机交互新模式
环境太吵、人声太多,语音交互怎么办?在“讯飞超脑2030计划”中,科大讯飞用“唇形+语音”的多模态语音增强技术,唤醒智能语音交互新模式。

“机器想更自然地与人类进行交互,需要通过听觉、视觉、语义以及各种传感器的组合去获取更多的有用信息,AI感知方式必然要从单模态发展到多模态,逐步拟人化。”高建清表示。
继“语音识别在多人讨论场景下效果做到70%”“多点噪声干扰场景做到了可用”之后,今年,科大讯飞挑战商场、医院、地铁等复杂场景,提出了全新的多模态语音增强与识别框架。结合视频信息输入,新技术可以利用人脸、唇形、语音等多模态信息的互补,将主说话人的干净人声从嘈杂背景环境中分离出来,显著提升开放场景的识别效果。
一个典型的场景是,当你在嘈杂的环境中通话,旁边其他人也在说话,搭载了多模感知技术的应用系统只“听”到你的声音,不受旁边嘈杂音干扰,从而非常顺利地完成沟通。
此外,科大讯飞还提出基于多元语义评价的“语音识别一体化”框架,在语音输入过程中,通过“语义纠错+语音识别”联合优化来提升语音识别的可懂度。“这一方案,从用户主观理解度层面有了极大改善,是真正站在用户体验的角度优化系统的一种方法”,高建清表示,这个算法主要解决“语音识别准确率高,但用户体验不好”的现实问题。

多情感多风格语音合成
虚拟人有温度有个性
如何让机器的声音媲美人类?这是AIGC领域需求量大、技术门槛高的难题。
高建清分享了科大讯飞在语音合成技术领域的新突破——多风格多情感合成系统SMART-TTS,语音合成从简单的信息播报“变身”具备喜怒哀乐情感的语音助手。
“系统充分利用了文本和语音的‘无监督预训练’,实现了从文本到声学特征、再到语音的端到端建模。”高建清介绍,SMART-TTS系统可提供“高兴、抱歉、撒娇、严肃、悲伤、困惑、害怕、鼓励、生气、安慰、宠溺”等11种情感,每种情感有20档强弱度不同的调节能力;也能提供声音的创造能力,如停顿、重音、语速等,可以根据自己喜好调节,真正实现了合成系统媲美具备个性化特点的真人表达能力。

现场播放的视频展示了SMART-TTS的多风格多情感语音合成能力:
当你漫步林荫路,TA可以用字正腔圆的“播音腔”为你读新闻;当你结束一天工作准备入睡,TA可以轻声细语为你读散文;当你驱车去公司上班,TA可以用你最喜欢的歌手声音告诉你走哪条路不堵车;当你和家人一起观看纪录片,TA可以为纪录片不同人物配音。人机交互表达自然、情感饱满。
目前,讯飞有声APP和讯飞开放平台都开放了SMART-TTS语音合成系统,开发者可以在讯飞有声直接下载体验,或在开放平台进行调用。
同样隶属于AIGC范畴,在声音和虚拟形象生成技术方面,科大讯飞实现了语义可控的声音、形象生成,语义驱动的情感、动作表达。比如:你输入“一头长发”,系统智能生成温柔大方的女性形象,声音端庄又不失甜美;输入“英俊潇洒”,生成有一些商务范的男生形象,声音略带磁性。高建清透露,讯飞开放平台将开放500个虚拟合成的声音。
此外,讯飞还实现了语音语义驱动的动作合成,通过对语音节奏、韵律体会和语义理解,虚拟人可以随时、流畅地切换动作,拥有更加自然的肢体语言。“与传统动作库相比,这套语义驱动的系统在动作拟人度及契合度方面,有明显的效果提升。”高建清表示。


