「我们正从 AI 语音的基础设施层过渡到应用层」,继 24 年 5 月推出首篇关于 Voice AI 的报告后,25 年初 a16z 再次更新了语音 AI 赛道的最新洞察。
语音是 AI 应用公司的一个关键机遇。作为人类最高频(且信息密度最大)的沟通方式,语音这项基础能力在 AI 时代首次实现「可编程化」。
对于企业而言,AI 提供了一种技术替代方案来取代人工,具有成本效益、速度更快、可靠性更高,而且通常性能更优。此外,语音智能体使企业能够保持全天候的客户服务,无缝处理咨询、安排预约和处理交易。这有效地消除了传统营业时间的限制,确保了持续的在线可用性,与过去的局限性形成鲜明对比(试想一下,在太平洋时间下午 3 点之后尝试联系一家美国东海岸银行)。
对于消费者而言,我们预计语音将成为与 AI 交互的最初甚至可能是主要的模式。这种交互可能表现为随时可用的伴侣或导师,或者通过使语言学习等服务更广泛地可用,这些服务以前对许多人来说遥不可及。
我们目前正从 AI 语音的基础设施层过渡到应用层。随着 AI 模型的不断进步,语音将成为一个关键的切入点,而不是最终产品本身。我们特别看好那些利用这种「语音优先」方法来解锁更广阔平台机遇的初创公司。
Olivia Moore
作者介绍:Olivia Moore 是 Andreessen Horowitz 风险投资公司消费领域投资团队的合伙人,专注于 AI 领域的投资。

2024 年 AI Voice 技术进展
2024 年 AI Voice 技术进展
-
OpenAI 推出 GPT-4o,具备实时语音功能 -
Cartesia 发布真人级别语音工具 Sonic
-
Character 推出语音通话功能(在测试版中,三百万用户拨打了 2000 万通电话) -
苹果宣布通过 Apple Intelligence 将 ChatGPT 整合到 Siri 中
-
OpenAI 开始推广高级语音模式 -
Speechmatics 推出实时对话模型 Flow
-
亚马逊将 Claude 整合到 Alexa 中 -
Meta 与名人合作,将他们的声音用于 AI 伴侣
-
NotebookLM 音频概述功能爆火 -
PlayHT 升级 2.0 版模型 -
Hume 升级 EV1 2 版模型
-
OpenAI 面向开发者开放实时语音 API -
Kyutai 推出全双工口语对话模型 Moshi
-
ElevenLabs 推出对话式 AI -
英伟达推出能够修改语音的模型 Fugatto -
Gemini 语音版 APP 上线
-
ChatGPT 高级语音模式推出互联网搜索功能 -
1-800-CHATGPT 推出引发热潮
模型开发的持续进步简化了基础设施「堆栈」,显著降低了语音智能体的延迟并提升了性能。近半年来,这些改进主要体现在新一代对话模型中。
新变化:2024 年 5 月与 2025 年 1 月对比
AI Agents 现在发展到哪一步了
AI Agents 的当前发展
-
模型质量
-
GTM
-
货币化
-
竞争
以开发者为中心的平台,使企业内部技术团队能够构建自己的解决方案。
通用型平台,使非技术团队能够部署智能体。
-
面向垂直行业的解决方案。
YC 中语音公司的增长情况
模型公司:如 ElevenLabs 和 Cartesia
通用型平台:如 Vapi 和 Bland
-
垂直化平台:如 HappyRobot 和 Wayfaster
B2B Voice Agent 发展切入点
市场演变:融资情况
过去一年公开宣布的融资轮次
模型公司
ElevenLabs (语音模型平台): 8000 万美元 B 轮 (2024 年 1 月) - a16z, Nat Friedman, Daniel Gross
Hume (语音模型平台): 5000 万美元 B 轮 (2024 年 3 月) - EQT
PlayAI (语音模型平台): 2100 万美元 种子轮 (2024 年 11 月) - Kindred Ventures
Cartesia (语音模型平台): 2700 万美元 种子轮 (2024 年 12 月) - Index Ventures
-
WaveForms AI (音频 LLM 公司): 4000 万美元 种子轮 (2024 年 12 月) - a16z
通用型平台
Kore (企业对话式 AI): 1.5 亿美元 C 轮 (2024 年 1 月),FTV Capital, NVIDIA
Rasa (开发者对话式平台): 3000 万美元 C 轮 (2024 年 2 月) - PayPal, a16z
Parloa (客户服务语音智能体): 6600 万美元 B 轮 (2024 年 4 月) - Altimeter
PolyAI (助手构建器): 5000 万美元 C 轮 (2024 年 5 月) - Hedosophia, NVIDIA, Zendesk
Synthflow (无代码语音智能体构建器): 740 万美元 种子轮 (2024 年 6 月) - Singular
Thoughtly (呼叫中心语音智能体): 300 万美元 种子轮 (2024 年 6 月) - Greycroft, Afore
Bland (企业智能体平台): 2200 万美元 A 轮 (2024 年 8 月) - Scale
Retell AI (开发平台): 460 万美元 种子轮 (2024 年 8 月) - Alt Capital
11x (销售): 2400 万美元 A 轮 (2024 年 9 月) - Benchmark;5000 万美元 B 轮 (2024 年 10 月) - a16z
Decagon (客户支持): 3500 万美元 A 轮 (2024 年 6 月) - Accel, a16z;6500 万美元 B 轮 (2024 年 10 月) - Bain Capital Ventures
Sierra (客户支持): 1.75 亿美元 B 轮 (2024 年 10 月) - Greenoaks
Artisan (销售): 1150 万美元 种子轮 (2024 年 10 月) - Oliver Jung
-
Vapi (开发者平台): 2000 万美元 A 轮 (2024 年 12 月) - Bessemer
垂直化平台
Hippocratic AI (医疗保健语音智能体): 5300 万美元 A 轮 (2024 年 3 月) - a16z, General Catalyst;1.41 亿美元 B 轮 (2025 年 1 月) - Kleiner Perkins
Assort Health (医疗保健前台智能体): 350 万美元 种子轮 (2024 年 3 月) - Quiet Capital
Voicepanel (客户反馈智能体): 240 万美元 种子轮 (2024 年 5 月) - YC, Rebel Fund, Liquid2
Letter (AI 销售指导): 270 万美元 种子轮 (2024 年 6 月) - YC, Formus Capital
Solidroad (联络中心培训): 120 万美元 种子轮 (2024 年 7 月) - Irish angels
Apriora (AI 面试官): 280 万美元 种子轮 (2024 年 8 月) - 1984
Wayfaster (语音 AI 面试官): 250 万美元 种子轮 (2024 年 9 月) - Slow Ventures
Prepared911 (紧急响应): 2700 万美元 B 轮 (2024 年 10 月) - a16z
FullyRamped (AI 销售培训): 230 万美元 种子轮 (2024 年 10 月) - BoxGroup
Parakeet Health (医疗保健前台智能体): 300 万美元 种子轮 (2024 年 10 月) - Canvas
HelloPatient (医疗保健语音智能体): 630 万美元 种子轮 (2024 年 10 月) - 8VC, Bling Capital, Max Ventures
Numa (汽车经销商语音智能体): 3200 万美元 B 轮 (2024 年 10 月) - Touring Capital, Mitsui
HappyRobot (物流语音智能体): 1560 万美元 A 轮 (2024 年 12 月) - a16z
Tenor (AI 领导力发展): 540 万美元 种子轮 (2024 年 12 月) - Base10
Hyro (医疗保健语音智能体): 3500 万美元 B 轮 (2024 年 12 月) - Healthier Capital
-
Maki (语音 AI 面试官 / HR): 2860 万美元 A 轮 (2025 年 1 月) - Blossom
重点领域:核心市场
(1)金融服务:如债务催收;
(2)保险:包括面向客户和后台运营;
(3)政府部门;
YC 孵化的 Voice Agent 公司
a16z 对语音智能体的投资
Voice Agents 市场图谱
Voice Agents 市场图谱 - B2B
Voice Agents 市场图谱 - B2C
我们在 AI 语音中寻找什么?
a16z 重视的 Voice Agent 项目特色
应用场景:电话是关键媒介
-
行业首选:电话是客户演示的首选方式(例如物流行业)。 -
法规驱动:由于法规限制,电话沟通更有效(例如债务催收)。 -
效果更佳:电话比其他沟通方式成功率更高(例如医疗保健)。
通话特性:受限且可控
-
通话约束:通话时长和形式/结果都受到限制。 -
目标明确:有一套明确的数据点需要收集或信息需要传递,且结果可衡量。 这对于企业接受 AI 语音助手至关重要。
价值体现:显著降低成本
-
成本降低:语音助手在保持与人工相似成功率的前提下,能够降低 50% 以上的成本(通常意味着通话受到约束!) . -
客户目标:客户希望大幅削减或重新分配人力资源。由于内部对 AI 的怀疑态度,投资回报率需要非常可观。
客户需求:高优先级或高价值通话
-
极端情况:对于客户而言,通话至关重要,愿意支付高额费用以确保接通或完成,但对于呼叫方而言,允许一定程度的错误或失败。 -
初期策略:许多客户从非工作时间/过载呼叫或「次级」呼叫开始,对性能要求较低。
价值创造:直接收益或成本优化
-
直接创收:能够带来更多业务、收取更多费用(例如招聘行业)。 成本关键:在利润微薄的行业中,通话是至关重要且占比很高的成本(例如汽车餐厅)。
销售策略:灵活适应不同规模客户
-
中小企业/中型市场:语音助手产品易于集成到 VoIP 或其他软件中,并且设置是自助式的。 -
大型企业:早期更复杂的集成实际上可以形成护城河,因为呼叫并非如此。或者,早期集成复杂度较低,并具有自然的「先着陆后扩张」潜力。
案例分析:AI 语音面试官
候选人接受度高:候选人通常更愿意尝试新的求职方式,包括与 AI 进行面试。与传统流程相比,AI 面试可能更具吸引力。
-
按结果付费模式:人力资源公司的商业模式通常与推荐的候选人数量或最终成功入职的人数挂钩。因此,他们有强烈的意愿提升候选人质量和数量。
「我们现在发送的候选人中大约有 90%能进入第一轮[与雇主]面试,75-80%能进入最后一轮。在[AI 语音面试初创公司]之前,我们的数字只有一半。」 —— 财富 100 强的人力资源公司
许多 AI 面试产品的表现已经达到甚至超过了人类招聘人员的水平,主要得益于以下几个方面:
随时随地:候选人可以根据自己的时间安排,随时随地进行面试。
评估一致性:AI 的评估标准始终如一。即使招聘需求发生变化,客户也可以轻松地重新评估之前的面试记录。
语言无障碍:不存在因语言或口音造成的沟通障碍。
-
专业知识:AI 通常能够更准确地评估技术或职位相关的答案,避免了因招聘人员经验不足而导致的误判。
「受访者往往以一种他们可能不会对人类面试官表现出的方式开始与 AI 建立信任。招聘人员可能没有经验去理解受访者所说的话。AI 可以从系统中读取信息,并给出更聪明、更吸引人的回应。」—— 年收入 2 亿美元的招聘机构
AI 语音面试官产品
2025 年关于 AI 语音的一些核心问题
原文:https://a16z.com/ai-voice-agents-2025-update/ 编译:施苏娜、傅丰元
加入我们的 Voice Agent 社区
RTE 开发者社区持续关注 Voice Agent 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣,也期待和更多开发者交流(每个月都有线上/线下 meetup,以及学习笔记分享),欢迎加入我们的社区微信群,一同探索人和 AI 的实时互动新范式。
加入我们:加微信 Creators2022,备注身份和来意(公司/项目+职位+加群),备注完整者优先加群。
对话式 AI 硬件开发者都关心什么?低延迟语音、视觉理解、Always-on、端侧智能、低功耗……丨 RTE Meetup 回顾
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势
语音即入口:AI 语音交互如何重塑下一代智能应用
Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……
帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记

