//
今天的 Voice Agent 学习笔记,分享来自锦秋基金的语音 AI 深度报告。报告指出 2B 和 2C 赛道值得关注的方向:
2B 领域:
垂直语音客服;
企业工作流 Agent;
培训/招聘模拟;
自动化 AI 语音智能体测试。
2C 领域:
AI 教育:儿童在线解题与陪伴学习到成人语言教学,均快速演进。
陪伴/心理疗愈:陪伴 AI 距离《Her》式体验仍需时日,心理疗愈核心挑战是合规与避免幻觉。
语音驱动 AI 游戏:短期 AI 陪玩难替真人,但语音驱动游戏(如 Volley)拓宽商业空间。
智能硬件 AI Agent:短期聚焦随身智能体体验,长期看好 AR/VR 等沉浸式硬件拓展交互。
-
语音不再只是辅助手段,在LLM驱动下,它正逼近人类的自然交流极限,从延迟、情感到上下文理解全面迭代,成为下一代智能交互的关键入口。
-
LLM对语音模型的冲击核心在于“冻住大模型+轻微训练”的新范式,让ASR、TTS一举跨入轻量、泛化、多任务支撑的新时代。
-
在ASR层面,大模型打通从音频编码器到语言模型的端到端通路,识别准确率接近天花板,但专有领域、口音、多人对话等复杂边缘场景依旧顽固难啃。
-
TTS从依赖人工设计特征转向语音离散化表征,大数据与LLM让生成层次激增,不仅零样本泛化可期,还能更灵活控制情感、语速与音色。
-
端到端模型表面华丽,但在企业级(2B)落地时,却绕不开“可控性、准确度、低延迟”的不可能三角,RAG与模块化方案依旧有其坚固阵地。
-
大厂在端到端与通用场景上虽有先发优势,但被监管、成本和可控性限制;创业公司在TTS定制化、价格与数据飞轮方面反而更可能穿透市场。
-
2C市场仍在孵化:教育、陪伴、AI游戏、智能硬件等潜力尚未定型,价值虽高,但短期商业化仍不清晰,下一个真正声学原生的杀手级应用仍在等待萌芽。
基石模型的发展
ASR的发展历程
早期阶段(1950-1980年代):基于模板匹配和HMM(隐马尔可夫模型)
统计模型阶段(1980-2000年代):基于GMM-HMM
-
深度学习阶段:自2009年Hinton提出使用DNN取代GMM后,DNN-HMM大规模应用
GMM-HMM / DNN-HMM
Sequence Labeling 和 Seq2Seq

TTS的发展历程
阶段一:3个模型(文本前端、声学模型和声码器)
阶段二:端到端的自回归/非自回归TTS
端到端模型
第一步,语音离散化
第二步,构建语音层面的LLM模型
ASR-LLM-TTS与端到端路线
商业化路径与市场格局
-
全球市场规模与增长预测
-
VUI(Voice User Interface) vs. GUI(Graphic User Interface)交互特性对比
-
应用场景与方向框架
技术与产业生态洞察
技术趋于成熟,商业化价值潜力大。
ASR(自动语音识别)领域更多聚焦垂直场景的转录产品。
-
TTS(文本转语音)则主要关注数字人配音、NPC配音、短视频配音(VTS)以及音乐生成等应用。
-
2B洞察
1.2B相对较难被端到端模型颠覆,对可控性和准确性要求较高
2.市场竞争格局分散,语音 2B 应用是垂直领域公司的机会
-
2B领域四个值得关注的投资方向
1.垂直赛道的语音客服;
2.企业工作流领域的Agent;
3.培训/招聘模拟;
-
2C洞察
-
2C赛道
加入我们的 Voice Agent 社区
RTE 开发者社区持续关注 Voice Agent 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣,也期待和更多开发者交流(每个月都有线上/线下 meetup,以及学习笔记分享),欢迎加入我们的社区微信群,一同探索人和 AI 的实时互动新范式。
加入我们:加微信 Creators2022,备注身份和来意(公司/项目+职位+加群),备注完整者优先加群。
更多 Voice Agent 学习笔记:
Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……
帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记

