大数跨境

巴别塔再现?高质量端到端数据助力Meta推出AI模型SeamlessM4T

巴别塔再现?高质量端到端数据助力Meta推出AI模型SeamlessM4T 声学楼论坛
2023-08-30
0
导读:追求卓越与无限的精神一直流淌在人类的基因里。圣经中有故事:在古代,人们说着同一种语言,决定建造一座高耸入云,
追求卓越与无限的精神一直流淌在人类的基因里。圣经中有故事:在古代,人们说着同一种语言,决定建造一座高耸入云,塔顶能触及天堂的塔,被称为巴别塔,以彰显人类的力量和创造力。然而上帝看到人类的意图,并认为这个塔的建造是人们的傲慢和自大的表现。上帝让人类的语言变得不同,使他们无法相互理解。这导致了混乱和分裂,无法继续合作建造塔。语言不通让人类的沟通变得低效和困难。近日,Meta推出AI模型SeamlessM4T,该模型可翻译和转录近百种语言,似乎将破除因语言不同而导致的沟通障碍。可谓是人类构建“巴别塔”的又一次尝试。




Meta 表示,SeamlessM4T可以在近 100 种语言之间进行文本到语音的翻译,并支持 36 种语言的完全语音到语音翻译,而此前要想实现类似的操作只能在单独的 AI 模型中分别进行翻译。这项技术相比于传统的文本翻译,最大的价值和挑战,在于可以直接对人类的语音进行端到端的翻译,从一种语言的语音直接翻译到另一种语言。这就可以使得人和人直接通话,不再需要复杂的中间模块来转换。



支持SeamlessM4T的模型进行语音到语音翻译需要大量高质量端到端数据。而数据资源稀缺也是端到端语音翻译方法最大的挑战之一。更具体地来说,是因为语音翻译数据集构建流程复杂、成本高:在取得授权音频的前提下进行对应的转写和翻译。接着需要对音频、转写和翻译进行切分,最后还要对齐以及过滤以获得有效的数据。


晴数智慧布局对话式AI数据集多年,关注到大模型带来了大规模的对话式场景落地,在3年前开始规划语音翻译数据集产品设计。高质量的语音翻译数据集成为基础能力制约的关键。晴数智慧并设计生产了各个语言(方言)的端到端翻译数据集:MagicData-CLAM-E2E数据集。今天,当所有的AIoT设备和人类对话的时候,我们可以基于这样的高质量语音翻译数据集,完成多语言间的自然转换。通天巴别塔的道路即在脚下。


晴数智慧MagicData-CLAM-E2E数据集样例:

上海话-中文普通话



广式粤语-中文普通话



英语-中文



西班牙语-中文



晴数智慧希望能通过高质量MagicData-CLAM系列数据集帮助更多企业及科研机构用高效、低成本地构筑高性能端到端语音翻译模型,打造AI时代的巴别塔。


更多数据详情,扫码咨询:



通过电话:400-900-5251

或邮箱:business@magicdatatech.com

联系我们的数据专家

用数据开启您的智能化之旅

关于晴数智慧

北京晴数智慧科技有限公司(英文:Magic Data)是一家全球高质量数据集解决方案公司,为人工智能领域研发企业和科研机构提供AI训练数据集和专业咨询服务,产品涵盖智慧出行、智慧金融、智能社交、智能家居、智能终端等五大行业,迄今服务了微软、高通、英伟达、阿里巴巴、百度、腾讯等国内外近300家合作伙伴。


【声明】内容源于网络
0
0
声学楼论坛
“声学楼”创办于2005年,致力于促进声学领域技术交流与应用。历经多年发展,声学楼已从一个单纯声学工程师交流平台,成长为音频企业上下游多方参与音频技术专业论坛之一,每年还通过举办技术研讨会、年会等活动,搭建起与会的行业供需双方沟通的桥梁。
内容 3422
粉丝 0
声学楼论坛 “声学楼”创办于2005年,致力于促进声学领域技术交流与应用。历经多年发展,声学楼已从一个单纯声学工程师交流平台,成长为音频企业上下游多方参与音频技术专业论坛之一,每年还通过举办技术研讨会、年会等活动,搭建起与会的行业供需双方沟通的桥梁。
总阅读2.6k
粉丝0
内容3.4k