图片来源:Manus
据知情人士透露,为筹备即将放行的AI 驱动个人设备,OpenAI 正着手提升其音频 AI 模型。三位了解该设备的知情人士表示,这款设备预计将以音频交互为主要形式。
当用户与ChatGPT 对话时,聊天机器人能够进行语音回应,但其音频版本所依赖的大型语言模型与生成文本回复的模型并非同一套系统。据一名前员工与一名现职员工透露,公司内部研究人员认为,当前音频模型在回答准确度和响应速度方面均落后于文本模型。
据知情人士透露,过去两个月间,OpenAI 已整合多个工程、产品与研究团队,共同致力于为未来设备优化音频模型。
提升音频模型的准确度对OpenAI 实现语音交互设备目标至关重要。据 The Information 此前报道,首款此类设备预计还需约一年时间才会问世。
OpenAI 改善其音频模型的努力开始见效。知情人士表示,新的音频模型架构生成的回应听起来更加自然且富有情感,并能提供更准确、更具深度的答案。该人士称,新音频模型还能够与人类用户同时讲话——这是现有模型无法实现的功能,并将更好地处理对话中断。
知情人士透露,公司目标是在2026 年第一季度发布这款新型音频模型。OpenAI 发言人对此不予置评。
与谷歌、亚马逊、Meta Platforms 和苹果一样,OpenAI 正致力于开发包括可穿戴设备在内的新型个人人工智能设备。部分公司认为,当前最受欢迎的 iPhone 等设备并未针对未来人工智能技术进行优化。
参与该项目研发的OpenAI 研究人员希望用户通过语音而非屏幕与设备交互。包括由 OpenAI 前首席技术官米拉·穆拉蒂联合创立的人工智能初创公司 Thinking Machines Lab 在内,许多人工智能研究者认为,大声说话是与人工智能交互更自然的方式,因为人类主要通过语音进行交流。
部分研究者还相信,无屏幕设计能降低人们对设备上瘾的可能性。正在与OpenAI 合作开发硬件的苹果前设计总监乔尼·艾夫曾表示,这对他而言是优先考虑的事项,因为他将潜在的新设备视为纠正以往消费电子产品缺陷的契机。
艾夫在五月份接受Stripe 首席执行官帕特里克·科里森采访时表示:"即使你的初衷是好的,但如果你参与的事情产生了不良后果,你就必须承担责任。这种责任感,就我个人而言,推动了我正在进行的许多工作。"
不过,据这位前员工表示,OpenAI 目前面临的一个障碍是,许多 ChatGPT 用户并不会通过大声说话的方式与聊天机器人互动,这要么是因为其音频模型质量较低,要么是因为他们不知道这个功能。他们说,为了打造一款以音频为先的人工智能设备,OpenAI 必须首先让消费者习惯与 ChatGPT 这样的人工智能产品大声对话。
知情人士透露,OpenAI 音频人工智能推动背后的关键人物是 Kundan Kumar,他是该公司今年夏天从 Character.AI 聘请来的语音人工智能研究员,负责领导这项工作。该人士称,其他领导者包括产品研究负责人 Ben Newhouse,他帮助重写了 OpenAI 的基础设施(这些设施主要为以文本为中心的人工智能而建)以适应音频人工智能,以及多模态 ChatGPT 的产品经理 Jackie Shannon。
据多位知情人士透露,OpenAI 正在开发一个计划逐步放行的设备系列,而不是单一设备。他们表示,公司讨论过的想法包括眼镜和无显示屏的智能音箱。
据知情人士透露,参与该设备研发的研究人员今年夏天在面向OpenAI 员工的展示会上表示,这款设备将扮演陪伴者的角色,主动为用户提供建议以助其达成目标,而非仅仅作为连接应用程序与其他软件的简单通道。该人士称,在获得用户允许后,设备将通过音频和视频感知周围环境及用户信息。
OpenAI 内部多个团队的员工参与了设备相关研发工作,涵盖供应链、工业设计及模型研究等领域。2025 年初,OpenAI 以近 65 亿美元收购了由艾维联合创立的公司 io,以主导硬件设备的设计工作。
参考资料:

