大数跨境
0
0

AI奇妙夜 | 微软研究院谭旭:零样本 TTS 模型 NaturalSpeech 3

AI奇妙夜 | 微软研究院谭旭:零样本 TTS 模型 NaturalSpeech 3 北京超级云计算中心
2024-04-23
3
导读:通过数据/模型扩展实现更自然的语音合成

文本到语音合成(Text to Speech,TTS)作为生成式人工智能的重要课题,在近年来取得了飞速发展。在大模型时代下,语音合成技术能够扩展大模型的语音交互能力,更是受到了广泛的关注。微软持续关注语音领域的技术研究与产品研发,为了合成高质量自然的人类语音,开展了 NaturalSpeech 研究项目。


本次 AI 奇妙夜,我们非常荣幸地邀请到微软研究院首席研究经理谭旭老师带来专场讲解,本次直播将介绍该项目最新技术 NaturalSpeech 3,它通过创新性的语音属性分解、离散扩散模型以及大规模数据/模型扩展,首次在多说话人场景通过零样本合成达到了人类水平。



观看本期直播的观众朋友们可免费领取由北京超算提供的500元卡时计算资源,还有超多精美周边礼品等你来拿哦!赶紧预约起来吧!



NaturalSpeech 3 论文一经推出就在国内外社交媒体上引发热议,推特网友盛赞:NaturalSpeech 3 是目前最好的零样本 TTS 模型,标题里的「Natural」可以说是当之无愧。




特邀嘉宾

谭旭


谭旭,微软研究院首席研究经理,研究领域为生成式人工智能、语音/音频/视频内容生成,AI Agent 等。出版学术专著《神经语音合成》,发表论文上百篇,引用上万次。


他开发的AI系统在机器翻译以及语音合成上首次达到人类水平并在比赛中获得多项冠军,多项语言/语音/音乐/视频生成的研究成果应用于微软产品中(如 Azure、Bing等)。担任 IEEE Senior Member 以及多个学术会议期刊(如 NeurIPS / AAAI / ICASSP / TMLR)Meta 审稿人或领域主席。


分享内容


- 语音合成背景介绍,以及微软 NatualSpeech 项目介绍

- NaturalSpeech 3技术解析

- 模型/数据的扩展

- 讨论


相关工作


NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models


Paper: 

https://arxiv.org/pdf/2403.03100.pdf

Demo: https://speechresearch.github.io/naturalspeech3/

Code: https://huggingface.co/spaces/amphion/naturalspeech3_facodec



互动有礼


天选时刻,福袋掉落


直播在北京超算视频号、B 站或OpenMMLab 视频号、B 站同时进行,期间不定时开启“天选时刻”/“惊喜福袋”抽奖活动,有机会获得北京超算惊喜礼品 or OpenMMLab 精美周边 !  【交流群内联系小助手领取奖品哦~】



知识问答小能手


北京超算直播平台专属活动:每期直播开始前将布置“课前习题”,直播开始后可将答案发在弹幕中,前三位回答正确的小伙伴将获得北京超算准备的精美礼品!


本期问题:

在语音合成中,______模型常被用来建立语音单元的生成模型。


本期礼品:keep健身跳绳(颜色随机)


为了方便大家交流沟通,我们还建立了以【AI 奇妙夜】为主题的社群,直播相关的所有资料都将在群里分享,还能与大佬 1v1对话,期待你的加入!








栏目介绍

追踪社会热点,解读 AI 前沿,用开源的算法,促进 AI 知识渗透,以超算/高性能计算为原点,开启人工智能前沿应用视角。北京超级云计算中心联合计算机视觉开源社区 OpenMMLab ,共同发布直播栏目【AI 奇妙夜】,作为「超级云讲堂」的特别栏目,每月一期周四晚八点,陪大家一同打开 AI 领域的奇妙之门。



活动组织方


指导单位:中国计算机学会高性能计算专业委员会、北京市科学技术协会

主办单位:北京超级云计算中心、OpenMMLab

协办单位:北京图象图形学学会


北京超级云计算中心

北京超级云计算中心成立于2011年,是由北京市人民政府主导、院市共建的“北京超级云计算和国家重要信息化基础平台”,坐落于北京市怀柔综合性国家科学中心--怀柔科学城。中心已构建智算云、行业云、超算云、设计仿真云四大核心运营服务体系,可提供算力建设、平台服务以及算力运营能力,目前已累计服务超过1000家单位。2020年起,连续四年荣获中国HPC TOP100通用CPU算力第一;2023年6月入选成为《北京市人工智能产业创新合作伙伴计划》首批算力伙伴。


OpenMMLab

OpenMMLab 开源社区具备深度学习时代最完整的计算机视觉开源算法体系,是产学研用四位一体的开放开源算法平台。

OpenMMLab 专注于视觉深度学习领域,涵盖 30+ 计算机视觉方向,支持 300+ 算法,提供 2,300+ 预训练模型。所有的工具箱都基于统一架构,提供代码工程组织架构优秀、拥有大量高质量算法内容的代码库,与提供模型训练能力的 PyTorch 等深度学习框架协同互补。

OpenMMLab 可以帮助使用者降低算法复现难度,方便复现算法基准并与之比较。与此同时,还可以帮助使用者避免重复踩坑,解决算法落地过程产生的多样化版本问题,提升人工智能算法的应用和部署效率。


图文编辑|韩岳彤

审核|刘芳

审核发布|胡永利

推荐阅读


关注“北京超级云计算中心”视频号

了解更多内容

品牌视界|算力之光|超算者|超级云讲堂



【声明】内容源于网络
0
0
北京超级云计算中心
北京超级云计算中心(简称“北京超算”),成立于2011年,是在北京市人民政府指导下院市共建的国家重要信息化基础平台,现坐落于北京怀柔综合性国家科学中心--怀柔科学城。
内容 377
粉丝 0
北京超级云计算中心 北京超级云计算中心(简称“北京超算”),成立于2011年,是在北京市人民政府指导下院市共建的国家重要信息化基础平台,现坐落于北京怀柔综合性国家科学中心--怀柔科学城。
总阅读582
粉丝0
内容377