Meta 表示,SeamlessM4T可以在近 100 种语言之间进行文本到语音的翻译,并支持 36 种语言的完全语音到语音翻译,而此前要想实现类似的操作只能在单独的 AI 模型中分别进行翻译。这项技术相比于传统的文本翻译,最大的价值和挑战,在于可以直接对人类的语音进行端到端的翻译,从一种语言的语音直接翻译到另一种语言。这就可以使得人和人直接通话,不再需要复杂的中间模块来转换。
支持SeamlessM4T的模型进行语音到语音翻译需要大量高质量端到端数据。而数据资源稀缺也是端到端语音翻译方法最大的挑战之一。更具体地来说,是因为语音翻译数据集构建流程复杂、成本高:在取得授权音频的前提下进行对应的转写和翻译。接着需要对音频、转写和翻译进行切分,最后还要对齐以及过滤以获得有效的数据。
晴数智慧布局对话式AI数据集多年,关注到大模型带来了大规模的对话式场景落地,在3年前开始规划语音翻译数据集产品设计。高质量的语音翻译数据集成为基础能力制约的关键。晴数智慧并设计生产了各个语言(方言)的端到端翻译数据集:MagicData-CLAM-E2E数据集。今天,当所有的AIoT设备和人类对话的时候,我们可以基于这样的高质量语音翻译数据集,完成多语言间的自然转换。通天巴别塔的道路即在脚下。
晴数智慧MagicData-CLAM-E2E数据集样例:
上海话-中文普通话
广式粤语-中文普通话
英语-中文
西班牙语-中文
晴数智慧希望能通过高质量MagicData-CLAM系列数据集帮助更多企业及科研机构用高效、低成本地构筑高性能端到端语音翻译模型,打造AI时代的巴别塔。
更多数据详情,扫码咨询:
通过电话:400-900-5251
或邮箱:business@magicdatatech.com
联系我们的数据专家
用数据开启您的智能化之旅
关于晴数智慧
北京晴数智慧科技有限公司(英文:Magic Data)是一家全球高质量数据集解决方案公司,为人工智能领域研发企业和科研机构提供AI训练数据集和专业咨询服务,产品涵盖智慧出行、智慧金融、智能社交、智能家居、智能终端等五大行业,迄今服务了微软、高通、英伟达、阿里巴巴、百度、腾讯等国内外近300家合作伙伴。

