Facebook开源全球最大多语言语音数据集VoxPopuli
涵盖23种语言,总时长超40万小时,助力AI语音翻译发展
Facebook近日开源了目前全球规模最大的多语言语音数据集VoxPopuli,该数据集包含超过40万小时的语音内容,覆盖23种语言[k]。

其中每种语言均拥有9000至18000小时的无标签语音数据,适用于自监督学习模型训练[k]。此外,数据集还包含1800小时、16种语言的转录语音数据,以及17300小时、15种目标语言的口译语音数据[k]。
所有原始语音数据均来源于2009年至2020年欧洲议会的公开会议录音,确保了语料的真实性与多样性[k]。
Facebook通过语音激活检测(VAD)算法将长音频切分为15-30秒的短片段,有效避免数据不平衡问题,提升多语言模型训练效率[k]。针对转录数据,采用声纹分割聚类(SD)与语音识别(ASR)技术,实现精准的说话人分离与语音切分[k]。
对于口译数据,团队利用ASR系统在句子层级对齐源语音与目标语音,完成高质量预处理,为语音翻译任务提供可靠支持[k]。

实验证明,基于VoxPopuli训练的模型在少样本语音识别任务中表现优异,VP-Mono5K和VP-100K在多数语言上优于XLSR系列模型,展现出强大的语音表征通用性[k]。
在语音翻译(ST)与语音识别(ASR)任务中,通过自我训练方式显著提升了模型性能,减少了对昂贵标注数据的依赖,并缩小了端到端模型与级联模型之间的差距[k]。

该项目旨在提升语音数据集质量与鲁棒性,推动NLP系统发展,促进AI翻译技术进步[k]。
论文地址:
https://arxiv.org/abs/2101.00390
下载地址:
https://github.com/facebookresearch/voxpopuli

