大数跨境
0
0

语音 AI 初创公司 Smallest.ai 融资 800 万美元;Qwen3-ASR-Toolkit:转录任意时长音视频丨日报

语音 AI 初创公司 Smallest.ai 融资 800 万美元;Qwen3-ASR-Toolkit:转录任意时长音视频丨日报 RTE开发者社区
2025-10-10
2
导读:本期关键词:Qwen3-ASR-Toolkit、NeuTTS Air、Gemini Enterprise

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。


本期编辑:@Jerry fong,@鲍勃



01


有话题的技术




1、阿里通义推出 Qwen3-ASR-Toolkit,转录任意时长音视频


Qwen-ASR API  是一个高级的、高性能的 Python 命令行工具包,用于调用 Qwen-ASR API(原名 Qwen3-ASR-Flash)。该实现通过智能分割长音频/视频文件并并行处理,突破了 API 的 3 分钟音频长度限制,从而能够快速转录数小时的内容。


主要特性


  • 打破 3 分钟限制:通过绕过官方 API 的时长约束,无缝转录任意时长的音频和视频文件。

  • 智能音频分割:使用语音活动检测(VAD)在自然的静默间隙处将音频分割成有意义的片段,确保不会生硬地截断单词和句子。

  • 高速并行处理:利用多线程将音频片段并发发送到 Qwen-ASR API,大幅减少长文件的总体转录时间。

  • 智能后处理:自动检测并移除常见的 ASR 幻觉和重复伪迹,生成更清晰、更准确的文本记录。

  • SRT 字幕生成:基于 VAD 分段自动创建带时间戳的 。srt 字幕文件,非常适合为视频内容添加字幕。

  • 自动音频重采样:自动将任何采样率和声道数的音频转换为 Qwen-ASR API 所需的 16kHz 单声道格式。您可以使用任何音频文件而无需担心预处理。

  • 通用媒体支持:得益于对 FFmpeg 的依赖,几乎支持任何音频和视频格式(例如 . mp4, .mov, .mkv, .mp3, .wav, .m4a) 。

  • 简单易用:直观的命令行界面让你只需一条命令即可开始使用。


Github 链接:

https://github.com/QwenLM/Qwen3-ASR-Toolkit


(@AIBase)



2、Neuphonicspeech 开源「NeuTTS Air」: CPU 实时语音 LLM



Neuphonicspeech 近日正式发布并免费开源了 「NeuTTS Air」,这是全球首个能够在标准 CPU 上实时运行的超逼真语音基础模型,并支持即时语音克隆功能。该模型基于 Qwen 0.5B LLM 主干构建,以 GGML 格式提供,旨在为社区提供创新的设备端 TTS 解决方案,为嵌入式语音智能体和合规应用开辟新纪元。


相关链接:

https://x.com/neuphonicspeech/status/1973760869084606854


(@neuphonicspeech@X)





02


有亮点的产品




1、Alphabet 推出 Gemini Enterprise:统一 AI 平台,全员自动化复杂任务与智能体集成


Alphabet 在「Gemini at Work」活动前发布「Gemini Enterprise」,这是一个统一的 AI 平台,旨在通过整合 Gemini AI 模型、内部及第三方智能体和生成式 AI,为企业各部门员工提供易于使用的 AI 工具。该平台赋能员工自动化复杂任务、生成内容,并无缝连接多个商业应用程序,标志着 AI 能力向全员普及迈出关键一步。


  • 「统一 AI 平台」: Gemini Enterprise 整合了 Google 现有的多项技术,包括 Gemini AI 模型、内部和第三方智能体以及生成式 AI,打造成一个单一的统一平台。

  • 「零配置集成」与「Playbook」核心: 平台以独特的「Playbook」为核心,预置了 MCP 服务器、上下文指令、自定义命令及工具禁用规则,使用户无需复杂配置即可让 AI 快速掌握外部服务的使用方式。支持集成 Box、Microsoft、Salesforce、SAP 等主流企业软件。

  • 丰富智能体生态: 包含 Google 预设计的软件开发、数据科学、客户互动智能体,以及 Workday 等企业伙伴的智能体,覆盖数据库、CI/CD、API 管理、设计系统、安全检测与云服务等关键领域。

  • 「无代码」赋能全员: Gemini Enterprise 让任何员工都能与公司数据互动,并跨业务系统触发工作流程,无需编程技能,使 AI 工具普惠化。

  • 内置安全与 Genkit 深度集成: 平台内置 Model Armor 功能,可检查和阻挡 AI 聊天中的请求和回应,确保企业安全性。此外,与 Genkit Extension for Gemini CLI 的深度集成,赋予命令行界面理解 Genkit 架构、执行流的能力,实现从终端直接构建、测试和迭代 AI 应用。


相关链接:

https://blog.google/products/google-cloud/gemini-at-work-2025/


(@芯研究)



2、Smallest.ai 获 800 万美元种子轮融资

语音 AI 初创公司「Smallest.ai」宣布完成由 Sierra Ventures 领投的 800 万美元种子轮融资。该公司专注于开发超低延迟、高效率的语音生成模型,旨在为呼叫中心、零售和医疗等对实时交互要求极高的行业提供企业级解决方案。


  • 极致的生成速度:其核心模型「Lightning」号称是市场上最快的文本转语音(TTS)模型,能在 100 毫秒内生成 10 秒的语音,比部分竞品快 50 倍。其最新的 4B 参数模型「Electron v2」实现了 53.25 毫秒的「首字符生成时间(TTFT)」,非常适合对延迟敏感的场景。

  • 高效的模型架构:与传统逐个 token 生成的自回归模型不同,「Lightning」采用非自回归架构,可一次性生成多个 token 以节省时间。通过权重剪枝和压缩,模型对硬件要求极低,仅需小于 1GB 的 VRAM 即可运行,同时声称其 4B 模型能媲美 6 倍于其大小的模型的输出质量。

  • 企业级定制与部署:平台提供灵活的语音克隆功能,仅需 15 秒的音频即可快速克隆声音,或使用 15-45 分钟的音频实现更高质量的复制。企业可创建针对特定行业(如处理信用卡号)的「智能体」,并为有严格安全需求的客户提供本地化部署(On-premise)选项。

  • 明确的市场扩张计划:本轮融资将用于加强其在零售、医疗和科技领域的市场渗透,将技术从最初聚焦的呼叫中心场景扩展到更广泛的商业应用。


相关链接:

https://siliconangle.com/2025/10/09/exclusive-voice-ai-developer-smallest-ai-nabs-8m-investment/


(@SiliconANGLE)



3、百度地图小度想想 2.0:行业首个深度融合端到端语音语言大模型


百度地图升级出行智能体「小度想想 2.0」,是行业首个深度融合端到端语音语言大模型的产品。


它引入独家地图出行知识库与百度实时搜索数据,强化复杂出行意图理解;构建跨端记忆体,支持多场景记忆,实现手机搜目的地后车机无缝导航;升级跨模态交互,可调度车内垂类智能体协作。同时具备 AI 搜索、真车道级 AI 导航、AI 伴行、AI 出游规划功能,目前已面向智能汽车全面开放,提升出行便捷度。


(@随心微智)





03


有态度的观点 




1、戴尔 CEO:AI 数据中心未来或将「过剩」,电力成最大瓶颈


据 CNBC 报道,戴尔科技 CEO 迈克尔・戴尔近日在接受采访时表示,当前人工智能算力需求「极其强劲」,但未来数据中心的建设数量可能会出现「过多」的情况。


迈克尔・戴尔指出,随着大语言模型逐步演进为多模态、多智能体系统,市场对 AI 处理能力的需求持续攀升。戴尔科技的服务器网络业务去年增长 58%,上季度更是同比大涨 69%。


目前,该公司 AI 服务器搭载英伟达 Blackwell Ultra 芯片,客户包括 CoreWeave 以及埃隆・马斯克旗下的 xAI。


不过,迈克尔・戴尔也强调,电力供应已成为制约 AI 数据中心扩张的关键因素。「许多客户会告诉我们,不要提前交付服务器,因为他们的机房还没有足够的电力支持。」


他提到,OpenAI 与英伟达在 9 月宣布合作建设至少 10 吉瓦的数据中心,相当于约 800 万户美国家庭一年的用电量。


目前,微软、谷歌、亚马逊等科技巨头均已宣布数十亿美元的 AI 数据中心投资计划。


美国能源信息署预计,2025 年美国电网将新增 63 吉瓦电力容量,而 OpenAI 与英伟达的项目 alone 就占据近 16%。


迈克尔・戴尔总结称:「如果要生成数十万亿个 token,推动经济发展,就必须依赖庞大的算力与能源。」


值得注意的是,英伟达 CEO 黄仁勋此前也在一次与 CNBC 的访谈中谈到该问题。


他认为,AI 数据中心应建设配套的离网发电能力,以「更迅捷地满足 AI 算力对电力的需求,且不会对一般居民的用电造成影响」。


(@APPSO)






加入我们的 Voice Agent 社区


RTE 开发者社区持续关注 Voice Agent 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣,也期待和更多开发者交流(每个月都有线上/线下 meetup,以及学习笔记分享),欢迎加入我们的社区微信群,一同探索人和 AI 的实时互动新范式。


加入我们:加微信 Creators2022,备注身份和来意(公司/项目+职位+加群),备注完整者优先加群。




图片


更多 Voice Agent 学习笔记:

硅谷顶级 VC 如何看语音 AI?Greylock 合伙人揭秘 Voice Agent 构建的三层策略

AI 客服还不够聪明,但已超过月薪五千的人类丨RTE Meetup 回顾


引爆 AI 会议工具潮流,Granola 打造 2.5 亿美元估值产品的秘密丨Voice Agent 学习笔记

活动回顾丨主动式语音 AI:全双工加持,让 AI 既会抢答也懂适时沉默丨RTE Meetup

GPT-4o 之后,Voice 从 Assistant 到 Agent,新机会藏在哪些场景里?|Voice Agent 学习笔记

对话 Wispr Flow 创始人 Tanay:语音输入,如何创造极致的 Voice AI 产品体验

Notion 创始人 Ivan Zhao:传统软件开发是造桥,AI 开发更像酿酒,提供环境让 AI 自行发展

ElevenLabs 语音智能体提示词指南——解锁 AI 语音交互的「灵魂秘籍」丨 Voice Agent 学习笔记

11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨Voice Agent 学习笔记

实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨Voice Agent 学习笔记







写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。



【声明】内容源于网络
0
0
RTE开发者社区
RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。
内容 1122
粉丝 0
RTE开发者社区 RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。
总阅读653
粉丝0
内容1.1k