歌曲魔改神器，换个歌词唱熟悉的流行歌，别有一番风味，这个AI工具，让声音"改头换面"，还能把唱词改成任何你想要的内容



歌曲魔改神器，换个歌词唱熟悉的流行歌，别有一番风味，这个AI工具，让声音"改头换面"，还能把唱词改成任何你想要的内容

老成教你玩互联网

2025-11-19

导读：有很多爆款视频就是让经典影视剧中的人物来唱歌，那么现在就能做到，既能让角色用他自己的音色唱歌，还能把他唱的歌词改成我们给他设定的，这就真的有点意思了。发挥你的想象和创造力，下一个百万爆款就是你！

点击上方蓝字关注我

下岗在家打孩子

闲着也是闲着

开头：一个意外的发现

最近在研究AI音乐，因为流行音乐拥有最庞大的受众群体，如果短视频能够很好的结合音乐以及它的周边来做，就会具备天然的流量属性。偶然间看到这个项目，它有趣的地方，是可以把歌曲里的歌词改成别的唱词，但还是用原声原调唱出来。所以我把它叫做魔改神器了。

我看到有很多爆款视频就是让经典影视剧中的人物来唱歌，那么现在就能做到，既能让角色用他自己的音色唱歌，还能把他唱的歌词改成我们给他设定的，这就真的有点意思了。发挥你的想象和创造力，下一个百万爆款就是你！

这种事从前听起来是天方夜谭，但A现在已经做到了。

花了半天功夫，我把音频分离、语音识别、歌词编辑这些常用的魔改音乐的功能，都整合到了一起，方便大家使用。现在就来介绍一下基本原理和使用方法。时间关系，我只做了一个简单的测试demo，还是很有意思的。

原曲

改后

第一部分：它能做什么？

1. 音频分离：把"混在一起的声音"分开

你有一首完整的歌曲，但你想只要人声部分，或者只要伴奏。以前，这需要专业的音频处理软件，还要懂点技术。

现在，你只需要把音频文件拖进去，点击"开始分离"，几秒钟后，人声和伴奏就分开了。

这背后用的是MelBandRoformer模型。简单来说，它就像一个"听力超群"的AI，能听出哪些是人的声音，哪些是乐器的声音，然后把它们分开。

2. 语音识别：让AI"听懂"你在说什么

你有一段音频，但不知道里面说了什么。或者，你想把一段话改成另一段话，但保持原来的声音。

这时候，语音识别就派上用场了。

用的是SenseVoice ASR模型。它不仅能识别中文，还能识别英文，准确率还挺高。识别出来的文本，你可以直接复制，也可以用来做下一步的编辑。

3. 音频编辑：把歌词改成你想要的样子

这是最有趣的部分。

你可以上传一段音频，比如一首歌，然后输入新的歌词。AI会保持原来的声音、旋律、节奏，但把歌词改成你想要的样子。

比如，你可以把"我们一起学猫叫"改成"我们一起学狗叫"，但声音还是原来的声音，旋律还是原来的旋律。

这背后，其实是有一个复杂的AI系统在运作。

第二部分：技术原理（简单版）

三个"工人"的配合

这个系统好比是三个工人的配合：

第一个工人：AR模型（自回归模型）

它的任务是"理解"你想要什么。你输入新的文本，它会把文本转换成一种特殊的"代码"，这种代码包含了文本的内容和结构。

就像你把一篇文章翻译成密码，只有懂密码的人才能看懂。

第二个工人：Flow Matching模型

它的任务是"生成"声音的特征。它接收第一个工人传来的"代码"，然后生成对应的声学特征。

这个过程有点像画画：你先有了轮廓（代码），然后填充细节（声学特征）。

第三个工人：Vocoder（声码器）

它的任务是"合成"最终的音频。它接收第二个工人传来的声学特征，然后转换成我们能听到的音频波形。

就像把一幅画打印出来，变成我们能看到的实物。

为什么能保持原来的声音？

这是很多人好奇的地方。

其实，系统会从原始音频中提取两个关键信息：

音色（Timbre）：这是声音的"质地"，就像每个人的声音都有独特的质感。
风格（Style）：这是声音的"表达方式"，包括节奏、情感、语调等。

然后，系统会用这些信息来"指导"新音频的生成，所以新音频听起来还是原来的声音，但内容已经变了。

第三部分：怎么用？

安装和启动

这个工具是用Python写的，但你不一定需要懂Python。我已经建了一个启动的bat文件，双击就能打开使用。

然后，浏览器会自动打开一个网页，你就能看到界面了。

使用步骤

音频分离：

切换到"音频分离"标签页
上传你的音频文件（支持WAV、MP3等格式）
点击"开始分离"
等待几秒钟，下载分离后的人声和伴奏

语音识别：

切换到"语音识别"标签页
上传你的音频文件
点击"开始识别"
识别结果会显示在文本框中

音频编辑：

切换到"音频编辑"标签页
上传你的音频文件
输入参考文本（可选，原始音频的文本内容）
输入目标文本（必需，你想要的新文本）
选择语言（中文/英语）
选择编辑类型（歌曲编辑/语音编辑）
点击"开始编辑"
等待处理完成，下载编辑后的音频

一些小技巧

音频文件建议使用WAV格式，采样率24kHz，效果最好
如果处理速度慢，可能是模型还在加载，第一次使用会慢一些。
源音频的质量很重要，一定要选高质量的源音频。

结尾

如果使用中有什么问题，欢迎你的反馈。如果你有特殊的需求，也可以找我做升级的开发。

对这个工具感兴趣，或想了解更多AI相关的技术，可以关注我的公众号：老成教你玩互联网。号上回复【歌曲魔改】可获得下载链接。

本账号会不定期分享一些AI工具的使用技巧，以及一些技术背后的原理。当然，如果你只是想用这个工具，直接下载使用就行。不需要懂技术，不需要学编程，就像用其他软件一样简单。

我是老成，我们下期见！

跟我学AI+自媒体，一人公司创富不是梦！

更多AI黑科技软件系列：

一键直播换脸软件，开源免费，整合一键包，低配电脑cpu可运行

萌宠视频制作神器，AI动物表情驱动生成视频动图

图片视频高清放大，本地部署开源工具，一键整合包

一键追爆款数字人系统源码，是作弊吗？抖音你在怕什么：数字人+AI改写+一键追爆款，数字人替普通人出镜，24小时自动生产爆款视频

公众号自动化运营神器，一键公众号文章生成配图排版发布工具，本地部署源码#公众号运营 #公众号运营教程

图片人物唱歌模型，本地部署一键整合包，我愿称之为迄今为止最强的模型#图片人物唱歌 #数字人MV #AI唱歌视频

实时对话AI数字人源码，我用一周时间重写了实时数字人：按住说话，就能和你聊天，还会换装，语音识别+大模型+实时视频合成+角色切换

AI自动修图神器，LuminarNeo最新免费版，全网都收费

AI图片高清放大工具，免费下载Upscayl一键秒变高清大图

AI一键生成艺术照，个性面容迁移写真照，免费开源，本地部署

获取更多AI黑科技软件，一对一技术支持，

可进老成的 “AI+自媒体”粉丝群（付费）

【声明】内容源于网络

老成教你玩互联网

70后老成，中国第一批网虫，靠互联网吃饭，天生爱自由，专攻自媒体、AI软件技术应用，著有《自媒体的真相》，不过还没写完。

内容 140

粉丝 0

老成教你玩互联网 70后老成，中国第一批网虫，靠互联网吃饭，天生爱自由，专攻自媒体、AI软件技术应用，著有《自媒体的真相》，不过还没写完。

总阅读98

粉丝0

内容140

歌曲魔改神器，换个歌词唱熟悉的流行歌，别有一番风味，这个AI工具，让声音"改头换面"，还能把唱词改成任何你想要的内容

点击上方蓝字关注我 下岗在家打孩子 闲着也是闲着

开头：一个意外的发现

第一部分：它能做什么？

1. 音频分离：把"混在一起的声音"分开

2. 语音识别：让AI"听懂"你在说什么

3. 音频编辑：把歌词改成你想要的样子

第二部分：技术原理（简单版）

三个"工人"的配合

为什么能保持原来的声音？

第三部分：怎么用？

安装和启动

使用步骤

一些小技巧

结尾

点击上方蓝字关注我

下岗在家打孩子

闲着也是闲着