Facebook开源全球最大多语言语音数据集VoxPopuli

涵盖23种语言，总时长超40万小时，助力AI语音翻译发展

Facebook近日开源了目前全球规模最大的多语言语音数据集VoxPopuli，该数据集包含超过40万小时的语音内容，覆盖23种语言[k]。

其中每种语言均拥有9000至18000小时的无标签语音数据，适用于自监督学习模型训练[k]。此外，数据集还包含1800小时、16种语言的转录语音数据，以及17300小时、15种目标语言的口译语音数据[k]。

所有原始语音数据均来源于2009年至2020年欧洲议会的公开会议录音，确保了语料的真实性与多样性[k]。

Facebook通过语音激活检测（VAD）算法将长音频切分为15-30秒的短片段，有效避免数据不平衡问题，提升多语言模型训练效率[k]。针对转录数据，采用声纹分割聚类（SD）与语音识别（ASR）技术，实现精准的说话人分离与语音切分[k]。

对于口译数据，团队利用ASR系统在句子层级对齐源语音与目标语音，完成高质量预处理，为语音翻译任务提供可靠支持[k]。

实验证明，基于VoxPopuli训练的模型在少样本语音识别任务中表现优异，VP-Mono5K和VP-100K在多数语言上优于XLSR系列模型，展现出强大的语音表征通用性[k]。

在语音翻译（ST）与语音识别（ASR）任务中，通过自我训练方式显著提升了模型性能，减少了对昂贵标注数据的依赖，并缩小了端到端模型与级联模型之间的差距[k]。

该项目旨在提升语音数据集质量与鲁棒性，推动NLP系统发展，促进AI翻译技术进步[k]。

论文地址：
https://arxiv.org/abs/2101.00390

下载地址：
https://github.com/facebookresearch/voxpopuli

【声明】内容源于网络

量子位

各类跨境出海行业相关资讯

内容 14987

粉丝 0

量子位各类跨境出海行业相关资讯

总阅读173.8k

粉丝0

内容15.0k