大数跨境
0
0

使用 TEN Agent+Deepseek 快速搭建语音助手

使用 TEN Agent+Deepseek 快速搭建语音助手 RTE开发者社区
2025-01-28
0
导读:语音助手快速搭建指南(限量🧧派送中)

新春快乐!

最近大家都在讨论DeepSeek,他们1月20日发布了AI模型R1,以极低的成本实现了与OpenAI最新模型相当的性能。他们的AI助手应用排名竟然超越ChatGPT,下载第一。我们也一直在关注,很想试试看,能否通过TEN接入。DeepSeek现在注册也有一定的免费额度,可以体验DeepSeek的API。如果你有兴趣,可以试试如何用DeepSeek搭建一个属于自己的语音助手

今天,我们将介绍如何使用Deepgram、DeepSeek和Fish.Audio在 TEN-Agent[1] 中搭建一个免费的语音助手。我们将使用Deepgram作为STT(语音转文本)服务,DeepSeek作为LLM(大型语言模型)服务,Fish.Audio作为TTS(文本转语音)服务, Agora作为人与云端AI进行语音RTC实时通信的服务。

欢迎把本教程分享到朋友圈!分享后截图发到公众号后台,前 10 位可以获取限量版🧧红包封面!

前置准备

我们需要先准备一下各个模型服务的 API Key, 各模型的 API Key 可以通过以下方式获取,且都有一定的免费额度,

  • Deepgram: 注册[2] 并获取 API Key
  • DeepSeek: 注册[3] 并获取 API Key
  • Fish.Audio: 注册[4] 并获取 API Key
  • agora.io: 注册[5] 并获取 App ID 和 App Certificate

TEN-Agent的开发环境依赖Docker,因此也需要前置安装一下。

搭建 TEN-Agent

接下去,我们需要搭建 TEN-Agent,可以参考 TEN-Agent 快速入门[6]

正确启动后,你应该能看到如下界面:

现在我们还没有配置各个模块和他们的API Key,接下去我们将逐步配置。

配置 STT

首先,我们需要配置STT模块,这里我们使用Deepgram作为STT服务。我们需要先打开模块选择器,然后在STT的下拉列表中选择Deepgram并保存,若 STT 模块已经默认选中 Deepgram 则无需操作。


接下去,我们需要配置Deepgram的API Key,点击模块选择器右侧的按钮以打开属性配置,然后在弹出的属性列表中配置你的API Key并保存。


配置 TTS

接下去,我们需要配置TTS模块,这里我们使用Fish.Audio作为TTS服务。我们需要先打开模块选择器,然后在TTS的下拉列表中选择Fish.Audio并保存,若 TTS 模块已经默认选中 Fish.Audio 则无需操作。


接下去,我们需要配置Fish.Audio的API Key,点击模块选择器右侧的按钮以打开属性配置,然后在弹出的属性列表中配置你的API Key并保存。Fish.Audio支持不同的音色,也支持自己Clone音色,如果你想配置其他的音色,可以配置model_id属性。

配置 LLM

最后,我们需要配置DeepSeek作为我们语音助手的LLM模块。因为 DeepSeek 的API是兼容OpenAI API的,因此我们需要选择OpenAI作为LLM模块。我们需要先打开模块选择器,然后在LLM的下拉列表中选择OpenAI并保存,若 LLM 模块已经默认选中 OpenAI 则无需操作。


接下去,我们需要配置LLM模块的属性以让他使用DeepSeek的服务。点击模块选择器右侧的按钮以打开属性配置,然后在弹出的属性列表中配置以下属性,

  • api_key: 你的DeepSeek API Key
  • model: deepseek-chat (DeepSeek的模型名称)
  • base_url: https://api.deepseek.com/v1 (DeepSeek的API地址)

修改完后保存即可。

启动语音助手

现在,我们已经配置完所有模块,接下去我们可以点击连接按钮,等待几秒钟后,我们就可以开始与我们的语音助手对话了。

更多定制

你可以根据自己的需求,将更多的模块绑定到你的语音助手上,比如天气模块,新闻模块等。你可以在模块选择器中选择你需要的模块,然后配置相应的属性即可。你也可以调整LLM的Prompt,以让你的语音助手更符合你的需求和风格。

参考资料

[1]

TEN-Agent: https://github.com/TEN-framework/TEN-Agent

[2]

注册: https://www.deepgram.com/

[3]

注册: https://www.deepseek.ai/

[4]

注册: https://fish.audio/

[5]

注册: https://www.agora.io/

[6]

TEN-Agent 快速入门: https://github.com/TEN-framework/TEN-Agent?tab=readme-ov-file#next-step


欢迎把本教程分享到朋友圈分享后截图发公众号后台,前 10 位可以获取限量版🧧红包封面!









加入我们的 Voice Agent 社区


RTE 开发者社区持续关注 Voice Agent 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣,也期待和更多开发者交流(每个月都有线上/线下 meetup,以及学习笔记分享),欢迎加入我们的社区微信群,一同探索人和 AI 的实时互动新范式。


加入我们:加微信 Creators2022,备注身份和来意(公司/项目+职位+加群),备注完整者优先加群。




更多 Voice Agent 学习笔记:

2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布

对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势

语音即入口:AI 语音交互如何重塑下一代智能应用

Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……

帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记

市场规模超 60 亿美元,语音如何改变对话式 AI?
2024 语音模型前沿研究整理,Voice Agent 开发者必读
从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户

WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?






【声明】内容源于网络
0
0
RTE开发者社区
RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。
内容 1122
粉丝 0
RTE开发者社区 RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。
总阅读653
粉丝0
内容1.1k