
一、语音技术
本公司现有语音技术均不依托第三方接口,完全独立自主实现。涉及到的语音技 术涵盖以下几个方面:
1)文本转语音(TTS)+ 声音风格迁移(GAN)即利用 TTS 技术结合对抗神经网络(GAN)生成多种风格的声音,其生成的音频 质量高、流畅度顺滑,且高度拟人。(已完成原型,演示见支撑材料)

2)声音克隆(Voice Clone)即仅需要5-10秒的声音输入,便可克隆(或生成)输入声音的特征。
3)声音转换(Voice Conversion)将输入声音转换成预设好参数特征的目标语音。
4)语音识别(ASR)即通过算法让机器识别输入的语音信号,然后转化为相应的文本输出。

5)声纹识别(Voiceprint Recognition)声纹识别和语音识别在原理上一样,都是通过对采集到的语音信号进行分析和处理,提取相应的特征或建立相应的模型,然后据此做出判断。

二、视频技术
本公司现有视频技术均不依托第三方接口,完全独立自主实现。涉及到的视频技 术涵盖以下几个方面:
1)AI 主播/客服技术结合深度学习,将二维人像图片通过算法映射到三维网格点(mesh)上,通过音频来驱动虚拟主播形象的面部表情。 结合知识库问答系统(问答系统+语音技术)可构建特定场景下的AI客服技术,如保险、银行等。

2)用视频驱动2D人像图片技术结合深度学习,将驱动视频中的人物面部及声音特征捕捉,并映射到任意二维人像/卡通图片上(被驱动),让二维人像图片富有感情色彩地输出表情与语音(声音及表情与驱动视频中的人物形象一致),达到“二维形象的“复活””,例如 蒙娜丽萨兵马俑等。也可以结合声音风格迁移,对声音特征做出符合心里预期的更改或调整。

三、生成式技术
目前,GPT-2-Chinese 可完成的任务如下:
1)生成式对话机器人--小智用大规模语料(中文社区闲聊数据,数据大小:3.7G,约400万条问答数据)作为训练数据,训练GPT-2-Chinese 模型,得到相应场景下的神经网络参数。模型很好的捕捉到了社区闲聊问答的“语言风格”,当输入新文本时,模型将对输入文本进行回答(给出可能性最高的文本回答,现阶段模型 loss 值范围 1.8-2%,后续补充大规模语料loss值将进一步降低),亦可完成多轮问答。并且,结合语音技术(ASR+TTS)及前端界面进一步提升了生成式对话机器人的交互性(语音交互)。

进一步的,我们设计了一套严格的数据过滤流程来确保该数据集中对话数据的质量。这一数据过滤流程中包括一系列手工规则以及若干基于机器学习算法所构建的分类器。我们所过滤掉的噪声包括:脏字脏词、特殊字符、颜表情、语法不通的语句、上下文不相关的对话等。在后续开发中我们将会部署到现有模型上。
2)中文散文生成更换训练数据(散文数据:约200MB的名家散文、情感散文和散文诗歌),调整优化模型参数,捕捉到训练数据的“风格”,得到模型参数。输入极少量的数据(几个字或者一句话,例如:秋天、春意盎然、今天真是个好天气等。),便可进行任意长度且契合“风格”的散文生成。(已完成原型)

3)中文诗歌/诗词生成 更换训练数据(诗词或诗歌数据,数据量:xxx),调整优化模型参数,捕捉到训练数据的“风格”,得到最终模型参数。仅需输入极少量的文本数据,便可进 行规定题材的诗歌/诗词生成。(已完成原型)
后续训练可完成:1)中文乐曲生成(曲谱生成并演奏) 2)中文歌曲的生成(曲谱+歌词同步生成并演奏)

四、问答系统
问答系统的数据库采用 neo4j 图结构数据库,可存储10亿级数据。目前我司全科知识图谱结构性数据沉淀高达 2 亿实体,实体关系更是高达数10亿,为多场景的问答系统开发及数据处理做好了坚实的储备。目前,本公司开发了基于 KGQA 的医疗问答系统(详见基于知识图谱的医疗问答系统-“慧医”)。

更多精彩内容
请关注“汉易汉”公众号
下期再见~

