大数跨境
0
0

歌曲魔改神器,换个歌词唱熟悉的流行歌,别有一番风味,这个AI工具,让声音"改头换面",还能把唱词改成任何你想要的内容

歌曲魔改神器,换个歌词唱熟悉的流行歌,别有一番风味,这个AI工具,让声音"改头换面",还能把唱词改成任何你想要的内容 老成教你玩互联网
2025-11-19
0
导读:有很多爆款视频就是让经典影视剧中的人物来唱歌,那么现在就能做到,既能让角色用他自己的音色唱歌,还能把他唱的歌词改成我们给他设定的,这就真的有点意思了。发挥你的想象和创造力,下一个百万爆款就是你!

点击上方蓝字关注我



下岗在家打孩子
闲着也是闲着
图片


开头:一个意外的发现

最近在研究AI音乐,因为流行音乐拥有最庞大的受众群体,如果短视频能够很好的结合音乐以及它的周边来做,就会具备天然的流量属性。偶然间看到这个项目,它有趣的地方,是可以把歌曲里的歌词改成别的唱词,但还是用原声原调唱出来。所以我把它叫做魔改神器了。



我看到有很多爆款视频就是让经典影视剧中的人物来唱歌,那么现在就能做到,既能让角色用他自己的音色唱歌,还能把他唱的歌词改成我们给他设定的,这就真的有点意思了。发挥你的想象和创造力,下一个百万爆款就是你!

这种事从前听起来是天方夜谭,但A现在已经做到了。

花了半天功夫,我把音频分离、语音识别、歌词编辑这些常用的魔改音乐的功能,都整合到了一起,方便大家使用。现在就来介绍一下基本原理和使用方法。时间关系,我只做了一个简单的测试demo,还是很有意思的。

原曲

改后


第一部分:它能做什么?

1. 音频分离:把"混在一起的声音"分开

你有一首完整的歌曲,但你想只要人声部分,或者只要伴奏。以前,这需要专业的音频处理软件,还要懂点技术。

现在,你只需要把音频文件拖进去,点击"开始分离",几秒钟后,人声和伴奏就分开了。

这背后用的是MelBandRoformer模型。简单来说,它就像一个"听力超群"的AI,能听出哪些是人的声音,哪些是乐器的声音,然后把它们分开。


2. 语音识别:让AI"听懂"你在说什么

你有一段音频,但不知道里面说了什么。或者,你想把一段话改成另一段话,但保持原来的声音。

这时候,语音识别就派上用场了。


用的是SenseVoice ASR模型。它不仅能识别中文,还能识别英文,准确率还挺高。识别出来的文本,你可以直接复制,也可以用来做下一步的编辑。

3. 音频编辑:把歌词改成你想要的样子

这是最有趣的部分。

你可以上传一段音频,比如一首歌,然后输入新的歌词。AI会保持原来的声音、旋律、节奏,但把歌词改成你想要的样子。


比如,你可以把"我们一起学猫叫"改成"我们一起学狗叫",但声音还是原来的声音,旋律还是原来的旋律。

这背后,其实是有一个复杂的AI系统在运作。

第二部分:技术原理(简单版)

三个"工人"的配合

这个系统好比是三个工人的配合:

第一个工人:AR模型(自回归模型)

它的任务是"理解"你想要什么。你输入新的文本,它会把文本转换成一种特殊的"代码",这种代码包含了文本的内容和结构。

就像你把一篇文章翻译成密码,只有懂密码的人才能看懂。

第二个工人:Flow Matching模型

它的任务是"生成"声音的特征。它接收第一个工人传来的"代码",然后生成对应的声学特征。

这个过程有点像画画:你先有了轮廓(代码),然后填充细节(声学特征)。

第三个工人:Vocoder(声码器)

它的任务是"合成"最终的音频。它接收第二个工人传来的声学特征,然后转换成我们能听到的音频波形。

就像把一幅画打印出来,变成我们能看到的实物。



为什么能保持原来的声音?

这是很多人好奇的地方。

其实,系统会从原始音频中提取两个关键信息:

  1. 音色(Timbre):这是声音的"质地",就像每个人的声音都有独特的质感。
  2. 风格(Style):这是声音的"表达方式",包括节奏、情感、语调等。

然后,系统会用这些信息来"指导"新音频的生成,所以新音频听起来还是原来的声音,但内容已经变了。


第三部分:怎么用?

安装和启动

这个工具是用Python写的,但你不一定需要懂Python。我已经建了一个启动的bat文件,双击就能打开使用。


然后,浏览器会自动打开一个网页,你就能看到界面了。


使用步骤

音频分离:

  1. 切换到"音频分离"标签页
  2. 上传你的音频文件(支持WAV、MP3等格式)
  3. 点击"开始分离"
  4. 等待几秒钟,下载分离后的人声和伴奏

语音识别:

  1. 切换到"语音识别"标签页
  2. 上传你的音频文件
  3. 点击"开始识别"
  4. 识别结果会显示在文本框中

音频编辑:

  1. 切换到"音频编辑"标签页
  2. 上传你的音频文件
  3. 输入参考文本(可选,原始音频的文本内容)
  4. 输入目标文本(必需,你想要的新文本)
  5. 选择语言(中文/英语)
  6. 选择编辑类型(歌曲编辑/语音编辑)
  7. 点击"开始编辑"
  8. 等待处理完成,下载编辑后的音频

一些小技巧

  • 音频文件建议使用WAV格式,采样率24kHz,效果最好
  • 如果处理速度慢,可能是模型还在加载,第一次使用会慢一些。
  • 源音频的质量很重要,一定要选高质量的源音频。

结尾

如果使用中有什么问题,欢迎你的反馈。如果你有特殊的需求,也可以找我做升级的开发。

对这个工具感兴趣,或想了解更多AI相关的技术,可以关注我的公众号:老成教你玩互联网。号上回复【歌曲魔改】可获得下载链接。

本账号会不定期分享一些AI工具的使用技巧,以及一些技术背后的原理。当然,如果你只是想用这个工具,直接下载使用就行。不需要懂技术,不需要学编程,就像用其他软件一样简单。

我是老成,我们下期见!


跟我学AI+自媒体,一人公司创富不是梦!


更多AI黑科技软件系列:

一键直播换脸软件,开源免费,整合一键包,低配电脑cpu可运行

萌宠视频制作神器,AI动物表情驱动生成视频动图

图片视频高清放大,本地部署开源工具,一键整合包

一键追爆款数字人系统源码,是作弊吗?抖音你在怕什么:数字人+AI改写+一键追爆款,数字人替普通人出镜,24小时自动生产爆款视频

公众号自动化运营神器,一键公众号文章生成配图排版发布工具,本地部署源码#公众号运营 #公众号运营教程

图片人物唱歌模型,本地部署一键整合包,我愿称之为迄今为止最强的模型#图片人物唱歌 #数字人MV #AI唱歌视频

实时对话AI数字人源码,我用一周时间重写了实时数字人:按住说话,就能和你聊天,还会换装,语音识别+大模型+实时视频合成+角色切换

AI自动修图神器,LuminarNeo最新免费版,全网都收费

AI图片高清放大工具,免费下载Upscayl一键秒变高清大图

AI一键生成艺术照,个性面容迁移写真照,免费开源,本地部署



获取更多AI黑科技软件,一对一技术支持,

可进老成的 “AI+自媒体”粉丝群(付费)



【声明】内容源于网络
0
0
老成教你玩互联网
70后老成,中国第一批网虫,靠互联网吃饭,天生爱自由,专攻自媒体、AI软件技术应用,著有《自媒体的真相》,不过还没写完。
内容 140
粉丝 0
老成教你玩互联网 70后老成,中国第一批网虫,靠互联网吃饭,天生爱自由,专攻自媒体、AI软件技术应用,著有《自媒体的真相》,不过还没写完。
总阅读98
粉丝0
内容140