点击上方蓝字关注我

|
|
|
开头:一个意外的发现
最近在研究AI音乐,因为流行音乐拥有最庞大的受众群体,如果短视频能够很好的结合音乐以及它的周边来做,就会具备天然的流量属性。偶然间看到这个项目,它有趣的地方,是可以把歌曲里的歌词改成别的唱词,但还是用原声原调唱出来。所以我把它叫做魔改神器了。
我看到有很多爆款视频就是让经典影视剧中的人物来唱歌,那么现在就能做到,既能让角色用他自己的音色唱歌,还能把他唱的歌词改成我们给他设定的,这就真的有点意思了。发挥你的想象和创造力,下一个百万爆款就是你!
这种事从前听起来是天方夜谭,但A现在已经做到了。
花了半天功夫,我把音频分离、语音识别、歌词编辑这些常用的魔改音乐的功能,都整合到了一起,方便大家使用。现在就来介绍一下基本原理和使用方法。时间关系,我只做了一个简单的测试demo,还是很有意思的。
原曲
第一部分:它能做什么?
1. 音频分离:把"混在一起的声音"分开
你有一首完整的歌曲,但你想只要人声部分,或者只要伴奏。以前,这需要专业的音频处理软件,还要懂点技术。
现在,你只需要把音频文件拖进去,点击"开始分离",几秒钟后,人声和伴奏就分开了。
这背后用的是MelBandRoformer模型。简单来说,它就像一个"听力超群"的AI,能听出哪些是人的声音,哪些是乐器的声音,然后把它们分开。
2. 语音识别:让AI"听懂"你在说什么
你有一段音频,但不知道里面说了什么。或者,你想把一段话改成另一段话,但保持原来的声音。
这时候,语音识别就派上用场了。
用的是SenseVoice ASR模型。它不仅能识别中文,还能识别英文,准确率还挺高。识别出来的文本,你可以直接复制,也可以用来做下一步的编辑。
3. 音频编辑:把歌词改成你想要的样子
这是最有趣的部分。
你可以上传一段音频,比如一首歌,然后输入新的歌词。AI会保持原来的声音、旋律、节奏,但把歌词改成你想要的样子。
比如,你可以把"我们一起学猫叫"改成"我们一起学狗叫",但声音还是原来的声音,旋律还是原来的旋律。
这背后,其实是有一个复杂的AI系统在运作。
第二部分:技术原理(简单版)
三个"工人"的配合
这个系统好比是三个工人的配合:
第一个工人:AR模型(自回归模型)
它的任务是"理解"你想要什么。你输入新的文本,它会把文本转换成一种特殊的"代码",这种代码包含了文本的内容和结构。
就像你把一篇文章翻译成密码,只有懂密码的人才能看懂。
第二个工人:Flow Matching模型
它的任务是"生成"声音的特征。它接收第一个工人传来的"代码",然后生成对应的声学特征。
这个过程有点像画画:你先有了轮廓(代码),然后填充细节(声学特征)。
第三个工人:Vocoder(声码器)
它的任务是"合成"最终的音频。它接收第二个工人传来的声学特征,然后转换成我们能听到的音频波形。
就像把一幅画打印出来,变成我们能看到的实物。
为什么能保持原来的声音?
这是很多人好奇的地方。
其实,系统会从原始音频中提取两个关键信息:
-
音色(Timbre):这是声音的"质地",就像每个人的声音都有独特的质感。 -
风格(Style):这是声音的"表达方式",包括节奏、情感、语调等。
然后,系统会用这些信息来"指导"新音频的生成,所以新音频听起来还是原来的声音,但内容已经变了。
第三部分:怎么用?
安装和启动
这个工具是用Python写的,但你不一定需要懂Python。我已经建了一个启动的bat文件,双击就能打开使用。
然后,浏览器会自动打开一个网页,你就能看到界面了。
使用步骤
音频分离:
-
切换到"音频分离"标签页 -
上传你的音频文件(支持WAV、MP3等格式) -
点击"开始分离" -
等待几秒钟,下载分离后的人声和伴奏
语音识别:
-
切换到"语音识别"标签页 -
上传你的音频文件 -
点击"开始识别" -
识别结果会显示在文本框中
音频编辑:
-
切换到"音频编辑"标签页 -
上传你的音频文件 -
输入参考文本(可选,原始音频的文本内容) -
输入目标文本(必需,你想要的新文本) -
选择语言(中文/英语) -
选择编辑类型(歌曲编辑/语音编辑) -
点击"开始编辑" -
等待处理完成,下载编辑后的音频
一些小技巧
-
音频文件建议使用WAV格式,采样率24kHz,效果最好 -
如果处理速度慢,可能是模型还在加载,第一次使用会慢一些。 -
源音频的质量很重要,一定要选高质量的源音频。
结尾
如果使用中有什么问题,欢迎你的反馈。如果你有特殊的需求,也可以找我做升级的开发。
对这个工具感兴趣,或想了解更多AI相关的技术,可以关注我的公众号:老成教你玩互联网。号上回复【歌曲魔改】可获得下载链接。
本账号会不定期分享一些AI工具的使用技巧,以及一些技术背后的原理。当然,如果你只是想用这个工具,直接下载使用就行。不需要懂技术,不需要学编程,就像用其他软件一样简单。
我是老成,我们下期见!
跟我学AI+自媒体,一人公司创富不是梦!
更多AI黑科技软件系列:
一键直播换脸软件,开源免费,整合一键包,低配电脑cpu可运行
一键追爆款数字人系统源码,是作弊吗?抖音你在怕什么:数字人+AI改写+一键追爆款,数字人替普通人出镜,24小时自动生产爆款视频
公众号自动化运营神器,一键公众号文章生成配图排版发布工具,本地部署源码#公众号运营 #公众号运营教程
图片人物唱歌模型,本地部署一键整合包,我愿称之为迄今为止最强的模型#图片人物唱歌 #数字人MV #AI唱歌视频
实时对话AI数字人源码,我用一周时间重写了实时数字人:按住说话,就能和你聊天,还会换装,语音识别+大模型+实时视频合成+角色切换
AI自动修图神器,LuminarNeo最新免费版,全网都收费
AI图片高清放大工具,免费下载Upscayl一键秒变高清大图
获取更多AI黑科技软件,一对一技术支持,
可进老成的 “AI+自媒体”粉丝群(付费)



