

有颜有才华！京东数科AI主播 “小可”正式出道

京东科技集团研究院

2020-06-29

导读：乘风破浪的AI主播小姐姐们。

“大家好，我是京东数科自研的AI主播小可……地球不爆炸，我就不下班；宇宙不重启，我就不休息。”继京东数科自研的首位AI虚拟数字人产品AI主播“小妮”上线后，京东数科第二位国风AI主播“小可”在端午正式出道！

京东数科自主研发AI主播“小可”端午正式出道

相比AI主播“小妮”的细腻端庄，端午出道的国风“小可”不仅扮相娇俏可爱，还段子频出，与灵动的真实主播并无二致。为了研发出写实逼真的AI虚拟数字人，京东数科AI实验室在文字转语音、3D人脸建模、语音转视频等方面进行了一系列技术创新。仅需使用一段几分钟的人物视频数据，经过几小时训练就可以合成出写实风格的AI虚拟数字人。

例如在顺利实现文字到语音的转化方面，我们自研了轻量级对抗语音合成技术。通过结合深度神经网络在多人数据上进行个性化建模，达到音色丰富、特色鲜明的语音合成效果，甚至可以模拟人的呼吸和停顿，听感酷似真人。高效轻量的对抗神经网络大幅提升了合成速度，合成1秒音频只需0.07秒，合成时延仅为业界水平的1/3，充分支持多场景实时语音合成。

在语音生成视频的阶段，为了使AI主播形象更加逼真，京东数科AI实验室利用对抗生成网络来还原更真实的表情，通过3D模型运动追踪技术来确保AI主播在说话时口型准确、表情细腻、头部运动自然。一般来说，2D类的模型往往能生成更细腻的画质，而3D方向的模型操控能力更佳。技术人员打通了这种模式上的壁垒，在2D和3D模型之上各取所长，将最新的深度学习技术与传统的优化技术和特征提取技术相结合，使语音、图像、视频这些模态间的语义打通成为可能。从实际效果来看，AI虚拟数字人能够模仿不同人的说话习惯，学到如何用点头、眨眼这些细微动作对发言中的重要内容加以强调。为了在口型匹配方面达到完美效果，京东数科AI实验室利用大量语音数据，并特意设计了鲁棒的语音特征，使其可以被不同音色、语言和语速的合成语音所驱动，且都能保持准确、连贯的口型。

这样，开发出的高度还原真人形象的AI虚拟数字人，在AI算法的驱动下，只需输入文本内容，无论“小妮”、“小可”或“小某”就能根据语义实时进行主持，且表情、动作和语音表达非常自然逼真。

除了AI主播，AI虚拟数字人还可以在多场景中落地生根。例如在重复性很高的智能客服场景中，用AI虚拟数字人代替人工客服可大幅提升整体客服效率和服务体验。再比如招聘场景中，对于公司介绍、薪资福利、入职流程介绍、招聘者基础信息确认等环节信息重复度高的场景，就可使用AI虚拟数字人替代HR进行交互回答，有效节省人力，提升公司科技感。

京东数科AI实验室首席科学家薄列峰表示：“AI主播的推出，是京东数科在多模态AI技术领域一次成功的落地应用。除了在客服、招聘等领域的应用之外，我们还将服务内容创造者，通过AI虚拟数字人技术，把静态图文内容转化为由‘真人’讲解的短视频，满足用户对多样化呈现形式的需求，增强用户黏性和社区活跃度。”

【声明】内容源于网络

京东科技集团研究院

1234

内容 3258

粉丝 0

京东科技集团研究院 1234

总阅读1.1k

粉丝0

内容3.3k