01
有话题的技术
1、阿里通义推出 Qwen3-ASR-Toolkit,转录任意时长音视频
Qwen-ASR API 是一个高级的、高性能的 Python 命令行工具包,用于调用 Qwen-ASR API(原名 Qwen3-ASR-Flash)。该实现通过智能分割长音频/视频文件并并行处理,突破了 API 的 3 分钟音频长度限制,从而能够快速转录数小时的内容。
主要特性
打破 3 分钟限制:通过绕过官方 API 的时长约束,无缝转录任意时长的音频和视频文件。
智能音频分割:使用语音活动检测(VAD)在自然的静默间隙处将音频分割成有意义的片段,确保不会生硬地截断单词和句子。
高速并行处理:利用多线程将音频片段并发发送到 Qwen-ASR API,大幅减少长文件的总体转录时间。
智能后处理:自动检测并移除常见的 ASR 幻觉和重复伪迹,生成更清晰、更准确的文本记录。
SRT 字幕生成:基于 VAD 分段自动创建带时间戳的 。srt 字幕文件,非常适合为视频内容添加字幕。
自动音频重采样:自动将任何采样率和声道数的音频转换为 Qwen-ASR API 所需的 16kHz 单声道格式。您可以使用任何音频文件而无需担心预处理。
通用媒体支持:得益于对 FFmpeg 的依赖,几乎支持任何音频和视频格式(例如 . mp4, .mov, .mkv, .mp3, .wav, .m4a) 。
简单易用:直观的命令行界面让你只需一条命令即可开始使用。
Github 链接:
https://github.com/QwenLM/Qwen3-ASR-Toolkit
(@AIBase)
2、Neuphonicspeech 开源「NeuTTS Air」: CPU 实时语音 LLM
Neuphonicspeech 近日正式发布并免费开源了 「NeuTTS Air」,这是全球首个能够在标准 CPU 上实时运行的超逼真语音基础模型,并支持即时语音克隆功能。该模型基于 Qwen 0.5B LLM 主干构建,以 GGML 格式提供,旨在为社区提供创新的设备端 TTS 解决方案,为嵌入式语音智能体和合规应用开辟新纪元。
相关链接:
https://x.com/neuphonicspeech/status/1973760869084606854
(@neuphonicspeech@X)
02
有亮点的产品
1、Alphabet 推出 Gemini Enterprise:统一 AI 平台,全员自动化复杂任务与智能体集成
Alphabet 在「Gemini at Work」活动前发布「Gemini Enterprise」,这是一个统一的 AI 平台,旨在通过整合 Gemini AI 模型、内部及第三方智能体和生成式 AI,为企业各部门员工提供易于使用的 AI 工具。该平台赋能员工自动化复杂任务、生成内容,并无缝连接多个商业应用程序,标志着 AI 能力向全员普及迈出关键一步。
「统一 AI 平台」: Gemini Enterprise 整合了 Google 现有的多项技术,包括 Gemini AI 模型、内部和第三方智能体以及生成式 AI,打造成一个单一的统一平台。
「零配置集成」与「Playbook」核心: 平台以独特的「Playbook」为核心,预置了 MCP 服务器、上下文指令、自定义命令及工具禁用规则,使用户无需复杂配置即可让 AI 快速掌握外部服务的使用方式。支持集成 Box、Microsoft、Salesforce、SAP 等主流企业软件。
丰富智能体生态: 包含 Google 预设计的软件开发、数据科学、客户互动智能体,以及 Workday 等企业伙伴的智能体,覆盖数据库、CI/CD、API 管理、设计系统、安全检测与云服务等关键领域。
「无代码」赋能全员: Gemini Enterprise 让任何员工都能与公司数据互动,并跨业务系统触发工作流程,无需编程技能,使 AI 工具普惠化。
内置安全与 Genkit 深度集成: 平台内置 Model Armor 功能,可检查和阻挡 AI 聊天中的请求和回应,确保企业安全性。此外,与 Genkit Extension for Gemini CLI 的深度集成,赋予命令行界面理解 Genkit 架构、执行流的能力,实现从终端直接构建、测试和迭代 AI 应用。
相关链接:
https://blog.google/products/google-cloud/gemini-at-work-2025/
(@芯研究)
2、Smallest.ai 获 800 万美元种子轮融资
语音 AI 初创公司「Smallest.ai」宣布完成由 Sierra Ventures 领投的 800 万美元种子轮融资。该公司专注于开发超低延迟、高效率的语音生成模型,旨在为呼叫中心、零售和医疗等对实时交互要求极高的行业提供企业级解决方案。
极致的生成速度:其核心模型「Lightning」号称是市场上最快的文本转语音(TTS)模型,能在 100 毫秒内生成 10 秒的语音,比部分竞品快 50 倍。其最新的 4B 参数模型「Electron v2」实现了 53.25 毫秒的「首字符生成时间(TTFT)」,非常适合对延迟敏感的场景。
高效的模型架构:与传统逐个 token 生成的自回归模型不同,「Lightning」采用非自回归架构,可一次性生成多个 token 以节省时间。通过权重剪枝和压缩,模型对硬件要求极低,仅需小于 1GB 的 VRAM 即可运行,同时声称其 4B 模型能媲美 6 倍于其大小的模型的输出质量。
企业级定制与部署:平台提供灵活的语音克隆功能,仅需 15 秒的音频即可快速克隆声音,或使用 15-45 分钟的音频实现更高质量的复制。企业可创建针对特定行业(如处理信用卡号)的「智能体」,并为有严格安全需求的客户提供本地化部署(On-premise)选项。
明确的市场扩张计划:本轮融资将用于加强其在零售、医疗和科技领域的市场渗透,将技术从最初聚焦的呼叫中心场景扩展到更广泛的商业应用。
相关链接:
https://siliconangle.com/2025/10/09/exclusive-voice-ai-developer-smallest-ai-nabs-8m-investment/
(@SiliconANGLE)
3、百度地图小度想想 2.0:行业首个深度融合端到端语音语言大模型
百度地图升级出行智能体「小度想想 2.0」,是行业首个深度融合端到端语音语言大模型的产品。
它引入独家地图出行知识库与百度实时搜索数据,强化复杂出行意图理解;构建跨端记忆体,支持多场景记忆,实现手机搜目的地后车机无缝导航;升级跨模态交互,可调度车内垂类智能体协作。同时具备 AI 搜索、真车道级 AI 导航、AI 伴行、AI 出游规划功能,目前已面向智能汽车全面开放,提升出行便捷度。
(@随心微智)
03
有态度的观点
1、戴尔 CEO:AI 数据中心未来或将「过剩」,电力成最大瓶颈
据 CNBC 报道,戴尔科技 CEO 迈克尔・戴尔近日在接受采访时表示,当前人工智能算力需求「极其强劲」,但未来数据中心的建设数量可能会出现「过多」的情况。
迈克尔・戴尔指出,随着大语言模型逐步演进为多模态、多智能体系统,市场对 AI 处理能力的需求持续攀升。戴尔科技的服务器网络业务去年增长 58%,上季度更是同比大涨 69%。
目前,该公司 AI 服务器搭载英伟达 Blackwell Ultra 芯片,客户包括 CoreWeave 以及埃隆・马斯克旗下的 xAI。
不过,迈克尔・戴尔也强调,电力供应已成为制约 AI 数据中心扩张的关键因素。「许多客户会告诉我们,不要提前交付服务器,因为他们的机房还没有足够的电力支持。」
他提到,OpenAI 与英伟达在 9 月宣布合作建设至少 10 吉瓦的数据中心,相当于约 800 万户美国家庭一年的用电量。
目前,微软、谷歌、亚马逊等科技巨头均已宣布数十亿美元的 AI 数据中心投资计划。
美国能源信息署预计,2025 年美国电网将新增 63 吉瓦电力容量,而 OpenAI 与英伟达的项目 alone 就占据近 16%。
迈克尔・戴尔总结称:「如果要生成数十万亿个 token,推动经济发展,就必须依赖庞大的算力与能源。」
值得注意的是,英伟达 CEO 黄仁勋此前也在一次与 CNBC 的访谈中谈到该问题。
他认为,AI 数据中心应建设配套的离网发电能力,以「更迅捷地满足 AI 算力对电力的需求,且不会对一般居民的用电造成影响」。
(@APPSO)
加入我们的 Voice Agent 社区
RTE 开发者社区持续关注 Voice Agent 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣,也期待和更多开发者交流(每个月都有线上/线下 meetup,以及学习笔记分享),欢迎加入我们的社区微信群,一同探索人和 AI 的实时互动新范式。
加入我们:加微信 Creators2022,备注身份和来意(公司/项目+职位+加群),备注完整者优先加群。

硅谷顶级 VC 如何看语音 AI?Greylock 合伙人揭秘 Voice Agent 构建的三层策略
AI 客服还不够聪明,但已超过月薪五千的人类丨RTE Meetup 回顾
引爆 AI 会议工具潮流,Granola 打造 2.5 亿美元估值产品的秘密丨Voice Agent 学习笔记
活动回顾丨主动式语音 AI:全双工加持,让 AI 既会抢答也懂适时沉默丨RTE Meetup
GPT-4o 之后,Voice 从 Assistant 到 Agent,新机会藏在哪些场景里?|Voice Agent 学习笔记
对话 Wispr Flow 创始人 Tanay:语音输入,如何创造极致的 Voice AI 产品体验
Notion 创始人 Ivan Zhao:传统软件开发是造桥,AI 开发更像酿酒,提供环境让 AI 自行发展
ElevenLabs 语音智能体提示词指南——解锁 AI 语音交互的「灵魂秘籍」丨 Voice Agent 学习笔记
11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨Voice Agent 学习笔记
实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨Voice Agent 学习笔记
写在最后:

