大数跨境

世界最大的多语言语音数据集现已开源!超40万小时,共23种语言

世界最大的多语言语音数据集现已开源!超40万小时,共23种语言 量子位
2021-08-06
3
导读:AI翻译:感谢Facebook

Facebook开源全球最大多语言语音数据集VoxPopuli

涵盖23种语言,总时长超40万小时,助力AI语音翻译发展

Facebook近日开源了目前全球规模最大的多语言语音数据集VoxPopuli,该数据集包含超过40万小时的语音内容,覆盖23种语言[k]

其中每种语言均拥有9000至18000小时的无标签语音数据,适用于自监督学习模型训练[k]。此外,数据集还包含1800小时、16种语言的转录语音数据,以及17300小时、15种目标语言的口译语音数据[k]

所有原始语音数据均来源于2009年至2020年欧洲议会的公开会议录音,确保了语料的真实性与多样性[k]

Facebook通过语音激活检测(VAD)算法将长音频切分为15-30秒的短片段,有效避免数据不平衡问题,提升多语言模型训练效率[k]。针对转录数据,采用声纹分割聚类(SD)与语音识别(ASR)技术,实现精准的说话人分离与语音切分[k]

对于口译数据,团队利用ASR系统在句子层级对齐源语音与目标语音,完成高质量预处理,为语音翻译任务提供可靠支持[k]

实验证明,基于VoxPopuli训练的模型在少样本语音识别任务中表现优异,VP-Mono5K和VP-100K在多数语言上优于XLSR系列模型,展现出强大的语音表征通用性[k]

在语音翻译(ST)与语音识别(ASR)任务中,通过自我训练方式显著提升了模型性能,减少了对昂贵标注数据的依赖,并缩小了端到端模型与级联模型之间的差距[k]

该项目旨在提升语音数据集质量与鲁棒性,推动NLP系统发展,促进AI翻译技术进步[k]

论文地址:
https://arxiv.org/abs/2101.00390

下载地址:
https://github.com/facebookresearch/voxpopuli

【声明】内容源于网络
0
0
量子位
各类跨境出海行业相关资讯
内容 14987
粉丝 0
量子位 各类跨境出海行业相关资讯
总阅读173.8k
粉丝0
内容15.0k