实时对话AI数字人源码，我用一周时间重写了实时数字人：按住说话，就能和你聊天，还会换装，语音识别+大模型+实时视频合成+角色切换



实时对话AI数字人源码，我用一周时间重写了实时数字人：按住说话，就能和你聊天，还会换装，语音识别+大模型+实时视频合成+角色切换

老成教你玩互联网

2025-12-13

导读：我做了一个能实时对话的AI数字人，终于完工了“七天时间，断断续续，熬了几个夜，终于把这个实时语音对话数字人重写了一遍！

点击上方蓝字关注我

我做了一个能实时对话的AI数字人，终于完工了

“
七天时间，断断续续，熬了几个夜，终于把这个实时语音对话数字人系统重写了一遍。此刻的我，疲惫但兴奋，想和你们分享这个"孩子"是怎么生出来的。

前言：重写的念头怎么来的？

这个项目很早之前就写完了，因为各种原因，后来把它忘了。AI每天都有新的东西出来，所以我每天都在追新的模型新的算法，经常是写了一个项目就丢文件夹里吃灰了。但这个实时语音数字人一直陆陆续续的有人问，就想着能不能把它完善一下，也把易用性提升一下，这样别人拿去能正经用起来，我也可以少费很多口舌。

第一章：它到底是什么？

简单说，这是一个实时语音对话数字人系统。

你对着麦克风说话，系统会：

听懂你说的话（语音识别）
理解你的意思，然后思考怎么回答（大语言模型）
生成语音回复（语音合成）
让数字人的嘴型跟着语音同步动起来（唇形同步）

整个过程，几乎实时。你说话，它回应，就像真的在和一个人视频通话。

生活中的比喻

想象一下，你有一个朋友：

他的耳朵是ASR（语音识别），负责听你说话
他的大脑是LLM（大语言模型），负责思考回答
他的嘴巴是TTS（语音合成），负责说话
他的脸是我用各种模型训练出来的数字人，负责做表情

唯一的不同是，这个过程全自动化，而且几乎瞬间完成。

第二章：技术栈，拆解给你看

不是什么技术大牛，不会原创，所以就各种挑选，选了相对成熟的开源方案。下面一个个拆来看看：

1. 语音识别（ASR）：让它听懂你

用的是FunASR，阿里开源的语音识别方案。

为什么选它？

开源免费，可以本地部署
支持实时流式识别
对中文识别效果好
支持离线模式（不联网也能用）

实际上，项目里我做了两套方案：

本地FunASR：完全本地，数据不上传，但需要你机器性能好点
云端方案：识别更准，但需要网络，后来发现云端好像总是断联，也不知道怎么回事。

所以我自己用的时候，一般选本地。本地延迟也似乎可以接受。

2. 大语言模型（LLM）：让它会思考

这里我做了三种选择：

方案A：阿里云通义千问

效果稳定，响应快
需要API密钥（要花钱，但不多）
适合对质量要求高的场景

方案B：Ollama本地模型

完全免费，数据不上传
需要你机器性能好（至少16GB内存）
适合追求隐私的场景

方案C：Dify服务

可以自己训练、定制
需要自己部署Dify服务

我默认用的是通义千问，因为稳定。但如果你追求隐私，可以切到Ollama，但相应地会增加系统开销。

AI实时对话数字人本地部署效果演示

3. 语音合成（TTS）：让它会说话

同样，我做了两套方案：

EdgeTTS：

微软的免费TTS服务
声音自然，选择多（男声女声都有）
但需要联网

GPT-SoVITS：

可以声音克隆，用你自己的声音
需要本地部署服务
效果最接近真人

我自己录视频的时候，会用GPT-SoVITS克隆自己的声音。但平时测试，EdgeTTS就够用了。

4. 数字人模型：让它会动

这是整个系统的核心，也是最吃资源的部分。

我用的Wav2Lip的改进版（wav2lipls），因为：

训练好的模型就能用，不需要重新训练
推理速度快，实时性有保障
效果在我能接受的范围内

5. 实时视频流：让它能看见

我用的是WebRTC。

为什么不用RTMP？

RTMP延迟高（通常3-5秒）
需要推流服务器，麻烦
WebRTC延迟低（通常几百毫秒），更适合实时对话

WebRTC的好处是：

浏览器原生支持，不需要插件
延迟低，交互感好
支持音视频同步

第三章：系统架构，一个"流水线"

整个系统，我把它设计成了一个"流水线"：

用户说话 
  ↓
[麦克风录音]
  ↓
[ASR识别] → 识别文本
  ↓
[LLM处理] → 生成回复文本
  ↓
[TTS合成] → 生成语音
  ↓
[唇形同步] → 生成视频帧
  ↓
[WebRTC传输] → 浏览器显示
  ↓
用户看到数字人说话

每一环，我都做了优化：

ASR环节：支持流式识别，边说边识别，不用等你说完LLM环节：支持流式输出，边生成边推送，不用等它全想好TTS环节：按句切分，说完一句就开始播，不用等整段话视频环节：帧率可调（我默认50fps），保证流畅

这样下来，整个延迟控制在1-2秒以内，基本算是实时了。

第四章：那些让我头疼的坑

做这个项目，踩了不少坑。有些解决了的，有些还在优化。

坑1：唇形同步的延迟

最开始，视频总是慢半拍。后来发现是视频帧率设置的问题。

解决：把帧率调到50fps，同时优化了音频和视频的同步机制。

坑2：被打断时的卡顿

用户打断数字人说话时，系统会卡一下。

解决：加了中断机制，检测到新输入就立即停止当前合成，开始新的。

坑3：多角色切换的性能

最开始，切换角色需要重新加载，慢得很。

解决：做了预加载机制，启动时就把所有角色加载到内存，切换时直接换，基本无延迟。

坑4：配置管理混乱

配置散落在各处，改个设置要改好几个文件。

解决：做了统一的配置管理系统，前端有可视化界面，改了就能生效。

坑5：内存占用太高

跑一个数字人，内存占用动不动就10GB+。

解决：做了模型共享机制，多个会话共享同一个模型实例，省了不少内存。

第五章：怎么用？（快速上手）

说实话，最开始我只打算自己用，所以命令行启动。但后来想，不如做个Web界面，让大家也能用上。

所以，现在有两种使用方式：

方式1：命令行启动（适合技术宅）

python app.py \
  --model wav2lipls \
  --avatar_id my_avatar0618 \
  --transport webrtc \
  --max_session 5 \
  --tts gpt-sovits \
  --TTS_SERVER http://127.0.0.1:9880

一行命令，搞定。

方式2：Web界面（适合所有人）

启动服务（命令同上，或直接用我打包的启动脚本）
打开浏览器，访问 http://127.0.0.1:8010/meta.html
点击"Start"按钮
按住说话按钮，开始对话

就这么简单。

配置系统（新增功能）

我最近还加了一个配置管理界面，点右上角的"⚙️ 配置"就能打开。

可以配置：

视频帧率
大语言模型选择（通义千问、Ollama、Dify）
TTS服务（EdgeTTS、GPT-SoVITS）
ASR服务（本地、云端）
角色管理（新增、编辑、删除）

尤其是角色管理，这是我昨晚刚加的功能。你可以：

添加新角色
设置每个角色的提示词（让它有不同的性格）
设置每个角色的声音
切换角色时，系统会自动切换对应的配置

比如，你可以配置一个"客服角色"，专门回答售后问题；配置一个"老师角色"，专门讲解知识。切换时，连声音和性格都会变。

第六章：性能表现

我的测试环境：

CPU：Intel i7-10700
GPU：NVIDIA RTX 4060（16GB）
内存：32GB

测试结果：

单角色：延迟2-3秒，内存占用8GB，GPU占用60%
多角色（5个）：延迟3-4秒，内存占用15GB，GPU占用80%
可同时会话数：最多5个（可配置）

如果你的机器比我好，表现会更好。如果比我差，可能需要降帧率或选择更轻量的模型。

第七章：技术细节，那些没说的秘密

流式处理的艺术

整个系统我最得意的，是流式处理。

什么意思？

传统的AI对话系统是这样的：

你说："今天天气真好"
  ↓
系统等待你说完（等3秒）
  ↓
ASR识别（等2秒）
  ↓
LLM生成完整回复（等5秒）
  ↓
TTS合成完整语音（等3秒）
  ↓
视频生成（等3秒）
  ↓
你终于看到数字人说话（总延迟：16秒）

而现在的系统是这样的：

你说："今天天气..."
  ↓
ASR边听边识别 → "今天天气"
  ↓
LLM边生成边推送 → "是的，今天天气不错..."
  ↓
TTS边合成边播放 → "是的，今天天气"
  ↓
视频边生成边显示
  ↓
你几乎实时看到回应（总延迟：1-2秒）

差别在哪？

缓冲区的使用。

每个环节，我都设计了缓冲区：

ASR缓冲区：累积足够内容才推给LLM（减少无效请求）
LLM缓冲区：累积足够句子才推给TTS（保证语义完整）
TTS缓冲区：按句切分，说完一句就开始播（保证实时性）

这样，既保证了实时性，又保证了质量。

多会话管理

最开始，系统只支持一个会话。后来我想，能不能同时和多个数字人对话？

于是，我设计了会话管理系统。

每个会话，都有独立的：

sessionid（会话ID）
nerfreal实例（数字人实例）
状态管理（是否在说话、当前角色等）

切换角色时，系统会：

保存当前会话状态
切换到新角色
如果角色未加载，先加载（首次慢，后续快）

这样，你可以在不同窗口同时和不同角色对话，互不干扰。

但有个问题：内存占用。

一个会话，大概占用8GB内存。5个会话就是40GB，普通机器扛不住。

所以，我做了模型共享机制：

所有会话共享同一个模型实例
每个会话只保存自己的状态
切换时只换数据，不换模型

这样，5个会话只需要15GB内存，省了一半多。

绿幕抠图（额外功能）

最近，我还加了一个功能：WebGL绿幕抠图。

如果你有绿幕背景，系统会自动抠掉，只保留数字人。

技术实现：

用WebGL在浏览器端实时处理
用片段着色器检测绿色像素
羽化边缘，避免锯齿
去色溢，避免边缘发绿

这样，你可以把数字人放到任何背景上，做直播、做视频都行。

配置管理系统的设计

最开始，配置散落在各处：

config.json 有系统配置
config_unified.json 有角色配置
代码里还硬编码了一些值

改个设置，要改3个地方，烦死了。

所以，我做了统一配置管理系统：

后端：

ConfigManager 类：统一管理配置
支持用户配置（优先级高于系统配置）
支持配置验证和默认值

前端：

可视化配置界面
支持实时预览
配置变更自动保存

这样，改个设置，点几下就完事了。

角色切换的优化

角色切换，最开始的实现是：

停止当前数字人
卸载模型
加载新模型
重新初始化

整个过程，需要10-20秒。

后来，我改成：

启动时预加载所有角色到内存
切换时只换数据，不换模型
清理旧会话状态

这样，切换只需要1-2秒，基本感觉不到延迟。

第八章：如何生成自己的数字人角色？

在项目的wav2lip目录下，有一个示例代码，放入模特的视频素材，启动虚拟环境，运行角色生成代码即可。这里就不详述了。

第九章：性能优化，让低配机器也能跑

我的RTX 4060算中等配置，但我想让更低配的机器也能跑。

所以，做了这些优化：

1. 模型量化

把模型从FP32降到FP16，内存占用减半，速度提升30%。

# 量化代码示例
model = torch.quantization.quantize_dynamic(
    model, {torch.nn.Linear}, dtype=torch.qint8
)

2. 批处理优化

视频生成时，批量处理多帧，而不是逐帧处理。

# 优化前：逐帧处理
for frame in frames:
    result = model(frame)  # 每次调用GPU

# 优化后：批量处理
batch = torch.stack(frames)
results = model(batch)  # 一次调用GPU

性能提升：**40%**。

3. 缓存机制

频繁访问的数据，缓存到内存：

音频特征缓存
视频帧缓存
配置缓存

减少重复计算，速度提升**20%**。

4. 异步处理

把阻塞操作改成异步：

ASR识别：异步处理
LLM生成：异步流式输出
TTS合成：异步处理

这样，系统不会因为某个环节慢而卡顿。

5. 动态降级

检测到性能不足时，自动降级：

降低帧率（50fps → 30fps → 25fps）
降低分辨率
切换更轻量的模型

这样，即使低配机器，也能勉强跑起来。

第十章：一些感悟

做这个项目，最大的感悟是：技术不难，难的是坚持。

关于技术

这个项目用到的技术，都不算新：

ASR、LLM、TTS，都是成熟方案
数字人模型，开源的一大堆
WebRTC，浏览器原生支持

真正的难点在于：

把它们串联起来：让各个环节配合好，不出错
优化性能：让普通机器也能跑
处理异常：网络断了、模型崩了、内存满了，怎么办？

这些，才是真正考验人的地方。

关于创新

没什么创新，就是把现有技术组合了一下。组合本身，就是一种创新。就像乐高积木，每块积木都很普通，但搭成房子，就是创新。

把ASR、LLM、TTS、数字人模型组合起来，做成一个完整的系统，而且，在组合的过程中，做了一些优化：

流式处理
多会话管理
配置管理系统
性能优化

这些，都是基于现有技术的改进，算是小创新吧。

关于未来

这个项目，还有很多可以改进的地方：

支持更多数字人模型
支持表情和手势
支持多语言
支持移动端
支持云端部署

但最近有个自媒体系统项目的想法，想先测试，要是能跑通了，以后一个人做自媒体几乎就可以完全自动了，躺赚不是梦啊，太诱惑人了。

也再看看大家的反馈吧，再决定下一步怎么走。

第十一章：如何开始？

如果你也想试试，可以：

快速体验（推荐）

下载我的项目整合包：

git clone [项目地址]
cd livehuman_DY1011

配置API密钥（可选）：

打开 config_unified.json
填入你的通义千问API密钥（或其他LLM配置）

启动服务：双击一键快速启动.bat
打开浏览器：

访问 http://127.0.0.1:8010/meta.html
点击"Start"，开始对话

进阶使用

添加角色：在配置界面添加新角色
切换模型：尝试不同的数字人模型
优化性能：根据你的机器调整参数
自定义训练：训练自己的数字人

遇到问题？

查看 README_ZH.md：有详细的使用说明
查看 新人快速使用指南.md：有5分钟快速上手指南
查看 配置功能使用说明.md：有配置系统说明

最后的话

写这篇文章，又花了我一整个下午。

从技术细节，到使用体验，到感悟思考，能写的都写了。

但我发现，有些东西，光说是说不清楚的。

最好的方式，是直接上手试试。

也许，你在用的过程中，会遇到我没想到的问题，会有我没想到的想法，会做出我没想到的应用。那这个项目，就真正有了价值。

最后，有需要这套源码的，可以私信联系我，两个火锅钱而已。+V:zhiweizhiyuan。

这里要特别提醒，注意：两个火锅钱买的只是目前全套源码以及它的正常运行，不是我的咨询和其他开发服务哈（这个是另收费的），不能接受的不要买，不能接受的不要买，不能接受的不要买，年纪大了现在靠自媒体为生，时间太宝贵了，一会儿别说我服务不好~

项目整合包里已经有完整的运行环境和一键启动程序，另附有详细的技术说明和使用文档，没有说看不懂的。

之前的老顾客买过这套源码的，可以联系我，免费更新的，非常抱歉来得有点晚了，希望你们已经做出来更好的了吧。

附录：项目信息

项目名称：LiveHuman - 实时语音对话数字人系统

技术栈：

后端：Python + Flask + aiohttp
前端：HTML + JavaScript + WebRTC
AI模型：FunASR、通义千问、GPT-SoVITS、Wav2Lip
部署：本地部署，支持WebRTC和RTMP

系统要求：

Windows 10/11 或 Ubuntu 20.04+
NVIDIA显卡（推荐RTX 3060+）
8GB+ 内存
Python 3.10+

感谢阅读！

如果这篇文章对你有帮助，欢迎点赞、转发、评论。

我是老成，一个爱折腾爱学习的老自媒体人。下期再见！

跟我学AI+自媒体，一人公司创富不是梦！

更多AI黑科技软件系列：

一键直播换脸软件，开源免费，整合一键包，低配电脑cpu可运行

萌宠视频制作神器，AI动物表情驱动生成视频动图

图片视频高清放大，本地部署开源工具，一键整合包

一键自动追爆款视频，数字人原创爆款视频生产力工具，本地部署源码，永久无限制使用，AI文案声音克隆智能分镜字幕

公众号自动化运营神器，一键公众号文章生成配图排版发布工具，本地部署源码#公众号运营 #公众号运营教程

图片人物唱歌模型，本地部署一键整合包，我愿称之为迄今为止最强的模型#图片人物唱歌 #数字人MV #AI唱歌视频

数字人带货，抖音上9.9元月饼是如何一口气卖掉20万？一个普通的抖音号也可以做到，赚佣金赚到手软，原来AI数字人这么简单

AI自动修图神器，LuminarNeo最新免费版，全网都收费

AI语音实时数字人，本地部署源码，永久无限制使用，任意切换形象和音色，自动扣除绿幕叠加画面，ai语音实时交互，AI实时互动数字人

AI图片高清放大工具，免费下载Upscayl一键秒变高清大图

AI一键生成艺术照，个性面容迁移写真照，免费开源，本地部署

获取更多AI黑科技软件，一对一技术支持，

可进老成的 “AI+自媒体”粉丝群（付费）

【声明】内容源于网络

老成教你玩互联网

70后老成，中国第一批网虫，靠互联网吃饭，天生爱自由，专攻自媒体、AI软件技术应用，著有《自媒体的真相》，不过还没写完。

内容 140

粉丝 0

老成教你玩互联网 70后老成，中国第一批网虫，靠互联网吃饭，天生爱自由，专攻自媒体、AI软件技术应用，著有《自媒体的真相》，不过还没写完。

总阅读98

粉丝0

内容140