大数跨境

从“百箱大战”到智能体:语音入口之争的跌宕起伏12年(2014-2026)

从“百箱大战”到智能体:语音入口之争的跌宕起伏12年(2014-2026) 声学楼论坛
2026-04-10
1
导读:语音入口,兵家必争从亚马逊 2014 年发布第一款智能音箱到 2026 年,刚好 12 年——一个轮回。

语音入口,兵家必争

亚马逊 2014 年发布第一款智能音箱到 2026 年,刚好 12 年——一个轮回。这个数字对中国人来说颇具神秘色彩。从 2014 到 2018 年,市场上涌现出大大小小的音箱产品,号称"百箱大战",价格更是从从千元级一路降至百元。


百箱大战时间图(AI整理)

在这12年中,智能音箱应该是2014年到2018年最典型的语音硬件产品。除此之外,软件上手机上有语音助手,车内有车载助手;输入法上有各个公司的语音输入法;智能家电也是"重灾区",电视、冰箱、油烟机,各种各样的智能家电,可以语音控制了,甚至连晾衣架、马桶,都得加一个语音控制吼一声,否则就无法凸显其智能!

这些听起来合理或者不合理的产品,甚至有些可以用"妖魔鬼怪"来形容,到底是图什么呢?排除跟风因素,稍微有些思考和设计的产品,其实核心目的只有一个:

争夺用户和机器交互的入口!

当机器有了“脑子”能思考,有了“手脚”能执行了,那什么才能充当它的耳朵和眼睛?

至少目前来看,还是手机占据主导。

从千元机到百元机,从"人工智障"到GPT-4o再到Agent,这十二年,不仅是硬件和技术的兴衰史,也是我们这代AI从业者的奋斗史。历史总是惊人的相似,"以史为鉴,可以知兴替"。在这个AI巨变的年代,技术日新月异,产品形态也是层出不穷,寻找变化之后的不变,从中获得一些做产品的启发,便是这篇文章的目的。

跌宕起伏的十二年

以小见大

2014年,我刚开始读博士,对互联网行业和AI了解不多。但从论文中铺天盖地的深度学习研究、频繁的企业与实验室交流、师兄师姐们的傲人offer中,我感受到了AI和整个行业的繁荣。这期间崛起了许多新公司:抖音、快手、拼多多、滴滴等。2018年从美国交流回来,突然发现国内网络快得惊人,大家在商场餐厅里都在刷短视频,流量仿佛和流水一样便宜。

2019年毕业,年底赶上疫情,互联网线上业务迎来了这个周期的高潮。腾讯股票在2021年2月超过了它的股票代码00700(700港币)。幸运的是,我在腾讯真实体验了这一刻。到2022年10月,仅一年半时间,股价跌到最低点178——至暗时刻。不幸的是,我也在腾讯更深刻地被上了一课。这期间,裁员风波不断,而且不是个例,整个行业都在经历这样的周期。

这十二年中国互联网行业的跌宕起伏,可以用一个全景图来描述(AI整理,我认为基本准确):互联网红利见顶与股票下跌同步发生。到2023年,大家绝望到极点,裁员成为共同话题,整个行业都在焦虑地寻找下一个增长引擎。不知是必然还是偶然,真的等到了——生成式大模型!


2014-2026互联网和AI行业发展趋势(AI整理)


历史的交叉点

大模型出现后,我一直在思考一个问题:为什么大模型问世2-3年,都没有催生出一个超级APP?或许豆包算是一个。后来我得出的结论是:

新业务和新业态的出现,需要网络、算法和算力同时突破。

2014年前后,正是这样一个交叉点。

  • 网络上,4G让网速得到解放,流量变得便宜,为图文向音视频的过渡提供了通道;
  • 算法上,基于大数据和深度学习的算法在自然语言、图像和语音等领域成功应用,模型能力大幅提升,为自动驾驶、语音交互、推荐算法提供了核心支撑;
  • 算力上,无论是端侧还是训练和推理的GPU,都实现了跨越式提升。移动端CPU进入64位架构时代,GPU性能飙升,英伟达的显卡也从游戏领域转向神经网络训练。

时代背景下的语音入口

语音行业同样随着时代和技术起伏发展。理想很丰满——很多人都坚信,语音是人与人最自然的交互方式,也应该是人与机器最自然的交互方式。这十几年,大家探索了众多方向:输入法、浏览器、智能音箱、智能座舱,再到GPT-4o之后自然语音交互催生的情绪陪伴。下图基本描述了这个行业的发展(AI生成,仅参考其发展阶段。国内车载助手实际开始于2016年前后,只是造车新势力更加重视体验)。


语音技术应用落地和场景探索(AI整理)

第一阶段:单向输入(工具属性)

替代文字输入,有两种方式,一种是直接传输语音,比如微信语音;一种是转成文字,也就是语音输入法。此时,还没有到“交互”的形式,仅仅是一种单向的输入

语音识别技术在深度学习技术和大数据的加持下,语音识别率大幅度提升,语音输入具有的商业化落地的可能。此时最重要的场景就是在智能手机上提供更方便语音输入。百度大力推行语音搜索,在任何一个浏览器输入框里面都能看到一个麦克风按钮。

第二阶段:指令控制(智能硬件)

最典型的代表是开头提到的智能音箱。作为音箱,无论智能与否,它的首要功能是播放音乐和讲故事。除了智能音箱,还有电视、各种语音控制的智能家居、智能手表(出门问问)。这些硬件更像是遥控器和中控,将语音交互带入家庭。此时,语音不再是单纯的输入,而是形成了交互和控制——人机之间可以进行简单的互动。语音合成也从机械的参数拼接时代,进化到基于深度网络的框架,音质和自然度都有明显提升。

这些智能硬件的出现,建立在多项技术突破之上:语音识别准确率提升、远场拾音技术(如麦克风阵列)、深度学习在3A算法上的应用、唤醒技术,以及自然语言理解能力的提高。

第三阶段:场景服务(车载助手)

车载助手并非始于2020年。Siri问世后,传统车企就开始探索车载语音助手。科大讯飞、百度、思必驰、出门问问都将车载业务视为重要方向,连腾讯也在布局。

造车新势力崛起后,作为智能设备制造商,他们比传统车企更重视智能化和用户体验。汽车成为最大的智能硬件。在双手被占用、相对私密的车内环境中,语音成为天然的交互入口,也成为继家庭之后又一重要落地场景。

这一阶段开始拼细节:声纹识别、多音区、趣味玩法、可见即可说——这些功能都是为了提升用户体验,成为消费者选择的理由。

第四阶段:情绪价值与执行(大模型和智能体)

大模型出现后,技术到应用都发生了巨大变化,甚至让人觉得过去十年的努力和技术积累都付诸东流。

技术上,大模型让自然语言理解任务发生了巨变——那些复杂、人工设计的规则和槽位不再需要了(或被弱化了)。架构上变化更大,语音端到端的概念在GPT-4o之后被引爆,传统的"语音识别→语音理解→语音合成"框架受到挑战,技术和体验上又开始了新一轮的数据、架构、能力、延迟等多方面的持续升级。

AI的发展若仅停留在交互层面,已无法满足用户需求。人民群众日益增长的“全能型智能化”期待,与现阶段AI大模型相对有限的智能及产品工程实现之间的矛盾, 成了当前的主要矛盾。随着AI发展和媒体的铺天盖地渲染,焦虑气息在蔓延,用户胃口越来越高,也期待更智能的产品出现。

应用上,逐渐从简单交互演变为情绪陪伴和任务执行。这是技术创新带来的最直接的升级。体验上,模型能听得懂用户的语言,并能给出积极的反馈;功能上,说一句话(或者一段描述)就期望完成某某功能,这种任务开始流行和可行。

题外话,开个玩笑——Vibe Coding可能是目前大模型有价值的应用之一。但Vibe Coding对程序员最大的价值是功能吗?换一个角度,我觉得不要忽略其情绪价值!当一个人看到Vibe Coding写出一个漂亮应用时,内心的喜悦和成就感可想而知;当你给AI分享一个想法时,它第一时间送来"这个想法太棒了",多少给了我很大的信心,哈哈)

现在比任何时候都需要个性化的数据

模型能力越来越强,上下文越来越长,记忆机制的引入,最后到Agent的执行层面,都在快速的进化,用户一方面希望AI无所不能,一方面又无法充分的将自己的背景、需求,传递给AI,导致AI在没有充分的背景知识下,进行了“平均主义”的执行,这样自然达不到用户的个性化需求。

互联网的数据差不多都被压缩到大模型里面了,而后面产生的数据,也将慢慢的被大模型生成的占据主流了,也就是说,这些数据的价值,必然是越来越低。那么什么数据有价值?对于用户来说,就是那些没有在互联网上留下痕迹的数据

听的、说的、看的、想的。

那么如何获取这些数据呢?答案只有一个:入口。那么新AI时代,什么样的产品有可能成为普遍的入口呢?

不知道!

对于极少部分人在一些限定场景中,他们可能已经有了,比如录音笔、可穿戴相机、智能眼镜、智能耳机、智能手环、智能戒指等等。但是对于绝大多数人,还没有答案。OpenAI隔三差五就爆出来做AI硬件,但大部分都是乌龙,这说明他们也没有想好到底什么形态才是最终的入口。

最后

经过这十几年的发展,语音流量入口的市场占有率无疑是大幅度上升的。在国内,AI原生应用的豆包作为一个助手,特别是主打的语音助手,对于推动语音交互,可以说功不可没。但是一个公司必然有一个公司的基因,他们也尝试了硬件的入口,但并不能算成功。

这是一个变革的时代,AI与硬件的下一次‘交叉点’或许就在明天的某个早晨。无论最终的超级入口是一副眼镜、一枚戒指,还是豆包这样的AI原生应用,争夺‘听、说、看、想’的战役才刚刚打响。参与和见证这个时代,是幸运也是幸福的。同时,也不妨慢下来思考一下,为某个用户群提供一个入口不难,是否真的会有一个入口、一个形态,适合所有人?

【语音技术和应用趋势分享系列(8)】龙虾时代的语音智能体

关于未来语音技术和应用趋势的10点看法

内容来源:AI语音AI思考

声明:本微信文章出于非商业性的教育和科研目的,并不意味着声学楼支持其观点或证实其内容的真实性。版权归原作者所有,如转载稿涉及版权等问题,请立即联系我们!我们会予以更改或删除相关文章,保证您的权利!


【声明】内容源于网络
0
0
声学楼论坛
“声学楼”创办于2005年,致力于促进声学领域技术交流与应用。历经多年发展,声学楼已从一个单纯声学工程师交流平台,成长为音频企业上下游多方参与音频技术专业论坛之一,每年还通过举办技术研讨会、年会等活动,搭建起与会的行业供需双方沟通的桥梁。
内容 3422
粉丝 0
声学楼论坛 “声学楼”创办于2005年,致力于促进声学领域技术交流与应用。历经多年发展,声学楼已从一个单纯声学工程师交流平台,成长为音频企业上下游多方参与音频技术专业论坛之一,每年还通过举办技术研讨会、年会等活动,搭建起与会的行业供需双方沟通的桥梁。
总阅读2.6k
粉丝0
内容3.4k