I狂潮正在进一步席卷我们的生活,继绘画、文案之后,音乐领域也遭遇了“AI入侵”。
近日“AI孙燕姿”在全网走红,独特的音色与唱腔搭配上与歌手本人风格或相似或迥异的歌曲成为了网友们的互联网新宠。

这些翻唱作品基于一个叫做so-vits-svc的开源项目。仅凭数段音频,就可用一个生成式模型来合成目标音色的音频,训练出用户想要的声学模型。这个模型可以保留音高和音调,也可以用不同的语言来翻唱。
据了解目前B站上与“AI孙燕姿”有关的视频已经近千条,翻唱歌曲包括民歌、童谣、动漫主题曲、流行歌曲等众多类型。其中AI孙燕姿翻唱的《下雨天》《发如雪》在B站点击量破百万。

B站也推出了“虚拟之声创作计划”,根据活动要求“原创/翻调/填词/改编”均可投稿,可以运用各类音源创作。
最近,这波AI翻唱趋势大火,不仅是AI孙燕姿唱的歌越来越多,AI歌手的范围也在扩大,就连制作教程都层出不穷了。

而如果在各大教程中溜达一圈后就会发现,其中的关键秘诀,还是要靠一个名为so-vits-svc的开源项目。
贡献成员应该大部分都来自国内,其中贡献量最高的还是一位玩明日方舟的广西老表。
如今,项目已经停止更新了,但是星标数量还在蹭蹭上涨,目前已经到了8.4k。
多亏了一个开源项目
这个项目名叫SoftVC VITS Singing Voice Conversion(歌声转换)。
它提供了一种音色转换算法,采用SoftVC内容编码器提取源音频语音特征,然后将矢量直接输入VITS,中间不转换成文本,从而保留了音高和语调。
此外,还将声码器改为NSF HiFiGAN,可以解决声音中断的问题。
其中,预训练模型这步是关键之一,因为项目本身不提供任何音色的音频训练模型,所以如果你想要做一个新的AI歌手出来,需要自己训练模型。
而预训练模型的第一步,是准备干声,也就是无音乐的纯人声。
推特博主@歸藏介绍说,在处理前最好把声音格式转成WAV格式,因为So-VITS-SVC 4.0只认这个格式,方便后面处理。
想要效果好一些,需要处理两次背景音,每次的设置不同,能最大限度提高干声质量。
比如音频太长容易爆显存,需要对音频切片,推荐5-15秒或者再长一点也OK。
然后要重新采样到44100Hz和单声道,并自动将数据集划分为训练集和验证集,生成配置文件。再生成Hubert和f0。


