
新春快乐!
最近大家都在讨论DeepSeek,他们1月20日发布了AI模型R1,以极低的成本实现了与OpenAI最新模型相当的性能。他们的AI助手应用排名竟然超越ChatGPT,下载第一。我们也一直在关注,很想试试看,能否通过TEN接入。DeepSeek现在注册也有一定的免费额度,可以体验DeepSeek的API。如果你有兴趣,可以试试如何用DeepSeek搭建一个属于自己的语音助手。
今天,我们将介绍如何使用Deepgram、DeepSeek和Fish.Audio在 TEN-Agent[1] 中搭建一个免费的语音助手。我们将使用Deepgram作为STT(语音转文本)服务,DeepSeek作为LLM(大型语言模型)服务,Fish.Audio作为TTS(文本转语音)服务, Agora作为人与云端AI进行语音RTC实时通信的服务。
欢迎把本教程分享到朋友圈!分享后截图发到公众号后台,前 10 位可以获取限量版🧧红包封面!

前置准备
我们需要先准备一下各个模型服务的 API Key, 各模型的 API Key 可以通过以下方式获取,且都有一定的免费额度,
-
Deepgram: 注册[2] 并获取 API Key -
DeepSeek: 注册[3] 并获取 API Key -
Fish.Audio: 注册[4] 并获取 API Key -
agora.io: 注册[5] 并获取 App ID 和 App Certificate
TEN-Agent的开发环境依赖Docker,因此也需要前置安装一下。
搭建 TEN-Agent
接下去,我们需要搭建 TEN-Agent,可以参考 TEN-Agent 快速入门[6]。
正确启动后,你应该能看到如下界面:

现在我们还没有配置各个模块和他们的API Key,接下去我们将逐步配置。
配置 STT
首先,我们需要配置STT模块,这里我们使用Deepgram作为STT服务。我们需要先打开模块选择器,然后在STT的下拉列表中选择Deepgram并保存,若 STT 模块已经默认选中 Deepgram 则无需操作。

接下去,我们需要配置Deepgram的API Key,点击模块选择器右侧的按钮以打开属性配置,然后在弹出的属性列表中配置你的API Key并保存。

配置 TTS
接下去,我们需要配置TTS模块,这里我们使用Fish.Audio作为TTS服务。我们需要先打开模块选择器,然后在TTS的下拉列表中选择Fish.Audio并保存,若 TTS 模块已经默认选中 Fish.Audio 则无需操作。

接下去,我们需要配置Fish.Audio的API Key,点击模块选择器右侧的按钮以打开属性配置,然后在弹出的属性列表中配置你的API Key并保存。Fish.Audio支持不同的音色,也支持自己Clone音色,如果你想配置其他的音色,可以配置model_id属性。

配置 LLM
最后,我们需要配置DeepSeek作为我们语音助手的LLM模块。因为 DeepSeek 的API是兼容OpenAI API的,因此我们需要选择OpenAI作为LLM模块。我们需要先打开模块选择器,然后在LLM的下拉列表中选择OpenAI并保存,若 LLM 模块已经默认选中 OpenAI 则无需操作。

接下去,我们需要配置LLM模块的属性以让他使用DeepSeek的服务。点击模块选择器右侧的按钮以打开属性配置,然后在弹出的属性列表中配置以下属性,
-
api_key: 你的DeepSeek API Key -
model:deepseek-chat(DeepSeek的模型名称) -
base_url:https://api.deepseek.com/v1(DeepSeek的API地址)

修改完后保存即可。
启动语音助手
现在,我们已经配置完所有模块,接下去我们可以点击连接按钮,等待几秒钟后,我们就可以开始与我们的语音助手对话了。

更多定制
你可以根据自己的需求,将更多的模块绑定到你的语音助手上,比如天气模块,新闻模块等。你可以在模块选择器中选择你需要的模块,然后配置相应的属性即可。你也可以调整LLM的Prompt,以让你的语音助手更符合你的需求和风格。
参考资料
TEN-Agent: https://github.com/TEN-framework/TEN-Agent
[2]注册: https://www.deepgram.com/
[3]注册: https://www.deepseek.ai/
[4]注册: https://fish.audio/
[5]注册: https://www.agora.io/
[6]TEN-Agent 快速入门: https://github.com/TEN-framework/TEN-Agent?tab=readme-ov-file#next-step
欢迎把本教程分享到朋友圈!分享后截图发到公众号后台,前 10 位可以获取限量版🧧红包封面!

加入我们的 Voice Agent 社区
RTE 开发者社区持续关注 Voice Agent 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣,也期待和更多开发者交流(每个月都有线上/线下 meetup,以及学习笔记分享),欢迎加入我们的社区微信群,一同探索人和 AI 的实时互动新范式。
加入我们:加微信 Creators2022,备注身份和来意(公司/项目+职位+加群),备注完整者优先加群。
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势
语音即入口:AI 语音交互如何重塑下一代智能应用
Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……
帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记
WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?

