语音 AI 初创公司 Smallest.ai 融资 800 万美元；Qwen3-ASR-Toolkit：转录任意时长音视频丨日报

RTE开发者社区

2025-10-10

导读：本期关键词：Qwen3-ASR-Toolkit、NeuTTS Air、Gemini Enterprise

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@Jerry fong，@鲍勃

有话题的技术

1、阿里通义推出 Qwen3-ASR-Toolkit，转录任意时长音视频

Qwen-ASR API 是一个高级的、高性能的 Python 命令行工具包，用于调用 Qwen-ASR API（原名 Qwen3-ASR-Flash）。该实现通过智能分割长音频/视频文件并并行处理，突破了 API 的 3 分钟音频长度限制，从而能够快速转录数小时的内容。

主要特性

打破 3 分钟限制：通过绕过官方 API 的时长约束，无缝转录任意时长的音频和视频文件。
智能音频分割：使用语音活动检测（VAD）在自然的静默间隙处将音频分割成有意义的片段，确保不会生硬地截断单词和句子。
高速并行处理：利用多线程将音频片段并发发送到 Qwen-ASR API，大幅减少长文件的总体转录时间。
智能后处理：自动检测并移除常见的 ASR 幻觉和重复伪迹，生成更清晰、更准确的文本记录。
SRT 字幕生成：基于 VAD 分段自动创建带时间戳的。srt 字幕文件，非常适合为视频内容添加字幕。
自动音频重采样：自动将任何采样率和声道数的音频转换为 Qwen-ASR API 所需的 16kHz 单声道格式。您可以使用任何音频文件而无需担心预处理。
通用媒体支持：得益于对 FFmpeg 的依赖，几乎支持任何音频和视频格式（例如 . mp4, .mov, .mkv, .mp3, .wav, .m4a) 。
简单易用：直观的命令行界面让你只需一条命令即可开始使用。

Github 链接：

https://github.com/QwenLM/Qwen3-ASR-Toolkit

(@AIBase)

2、Neuphonicspeech 开源「NeuTTS Air」： CPU 实时语音 LLM

Neuphonicspeech 近日正式发布并免费开源了「NeuTTS Air」，这是全球首个能够在标准 CPU 上实时运行的超逼真语音基础模型，并支持即时语音克隆功能。该模型基于 Qwen 0.5B LLM 主干构建，以 GGML 格式提供，旨在为社区提供创新的设备端 TTS 解决方案，为嵌入式语音智能体和合规应用开辟新纪元。

1、Alphabet 推出 Gemini Enterprise：统一 AI 平台，全员自动化复杂任务与智能体集成

Alphabet 在「Gemini at Work」活动前发布「Gemini Enterprise」，这是一个统一的 AI 平台，旨在通过整合 Gemini AI 模型、内部及第三方智能体和生成式 AI，为企业各部门员工提供易于使用的 AI 工具。该平台赋能员工自动化复杂任务、生成内容，并无缝连接多个商业应用程序，标志着 AI 能力向全员普及迈出关键一步。

「统一 AI 平台」： Gemini Enterprise 整合了 Google 现有的多项技术，包括 Gemini AI 模型、内部和第三方智能体以及生成式 AI，打造成一个单一的统一平台。
「零配置集成」与「Playbook」核心：平台以独特的「Playbook」为核心，预置了 MCP 服务器、上下文指令、自定义命令及工具禁用规则，使用户无需复杂配置即可让 AI 快速掌握外部服务的使用方式。支持集成 Box、Microsoft、Salesforce、SAP 等主流企业软件。
丰富智能体生态：包含 Google 预设计的软件开发、数据科学、客户互动智能体，以及 Workday 等企业伙伴的智能体，覆盖数据库、CI/CD、API 管理、设计系统、安全检测与云服务等关键领域。
「无代码」赋能全员： Gemini Enterprise 让任何员工都能与公司数据互动，并跨业务系统触发工作流程，无需编程技能，使 AI 工具普惠化。
内置安全与 Genkit 深度集成：平台内置 Model Armor 功能，可检查和阻挡 AI 聊天中的请求和回应，确保企业安全性。此外，与 Genkit Extension for Gemini CLI 的深度集成，赋予命令行界面理解 Genkit 架构、执行流的能力，实现从终端直接构建、测试和迭代 AI 应用。

2、Smallest.ai 获 800 万美元种子轮融资

语音 AI 初创公司「Smallest.ai」宣布完成由 Sierra Ventures 领投的 800 万美元种子轮融资。该公司专注于开发超低延迟、高效率的语音生成模型，旨在为呼叫中心、零售和医疗等对实时交互要求极高的行业提供企业级解决方案。

极致的生成速度：其核心模型「Lightning」号称是市场上最快的文本转语音（TTS）模型，能在 100 毫秒内生成 10 秒的语音，比部分竞品快 50 倍。其最新的 4B 参数模型「Electron v2」实现了 53.25 毫秒的「首字符生成时间（TTFT）」，非常适合对延迟敏感的场景。
高效的模型架构：与传统逐个 token 生成的自回归模型不同，「Lightning」采用非自回归架构，可一次性生成多个 token 以节省时间。通过权重剪枝和压缩，模型对硬件要求极低，仅需小于 1GB 的 VRAM 即可运行，同时声称其 4B 模型能媲美 6 倍于其大小的模型的输出质量。
企业级定制与部署：平台提供灵活的语音克隆功能，仅需 15 秒的音频即可快速克隆声音，或使用 15-45 分钟的音频实现更高质量的复制。企业可创建针对特定行业（如处理信用卡号）的「智能体」，并为有严格安全需求的客户提供本地化部署（On-premise）选项。
明确的市场扩张计划：本轮融资将用于加强其在零售、医疗和科技领域的市场渗透，将技术从最初聚焦的呼叫中心场景扩展到更广泛的商业应用。