阶跃星辰开源端到端语音模型 Step-Audio 2 mini：理解、推理与生成统一建模；苹果发布可在浏览器运行的视觉模型丨日报

RTE开发者社区

2025-09-01

导读：本期关键词：Step-Audio 2 mini、FastVLM、Asa

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@子禾、@鲍勃

有话题的技术

1、阶跃星辰发布开源端到端语音大模型 Step-Audio 2 mini

阶跃星辰（StepFun）近日正式开源了其端到端语音大模型 Step-Audio 2 mini，该模型在多项国际基准测试中取得了领先（SOTA）成绩。它将语音理解、音频推理与生成统一建模，能够处理包括语音识别、跨语种翻译、情感解析、语音对话等多种任务，其综合性能已超越 GPT-4o Audio 及其他主流开源模型。这款模型的一大亮点是原生支持 Tool Calling 能力，可实现联网搜索等高级操作，赋予其强大的知识增强和多场景应用能力。

Step-Audio 2 mini 的核心技术优势在于其创新的「真端到端」架构。与传统的「ASR+LLM+TTS」三级结构不同，它实现了从原始音频到语音响应的直接转换，显著降低了时延，并能有效理解音频中的「弦外之音」，如情绪、语调和非人声信号。此外，该模型首次在端到端语音领域引入了思维链（Chain-of-Thought， CoT）推理与强化学习的联合优化，使其具备更强的逻辑推理和自然回应能力，解决了以往语音模型「智商情商双低」的问题。

在性能上，Step-Audio 2 mini 在多个关键基准测试中表现卓越。它在通用音频理解测试集 MMAU 上得分位居榜首，在口语对话能力 URO Bench 上获得最高分。尤其在语音翻译和识别任务上，表现出压倒性优势，其英中互译、多语言与多方言识别的错误率均大幅领先其他开源模型 15% 以上。目前，该模型已在 GitHub、Hugging Face 和 ModelScope 等平台开源，欢迎开发者下载和体验。

2、苹果发布实时视觉语言模型 FastVLM：速度提升 85 倍，体积缩小 3.4 倍

苹果公司近日在 Hugging Face 平台发布了 FastVLM 一系列支持 WebGPU 的实时视觉语言模型（VLM），参数量级分别为 0.5B、1.5B 和 7B。

其速度比同规模 VLM 快 85 倍，模型体积小 3.4 倍。
对于更大模型，其首字符生成时间（TTFT）快 7.9 倍。
该模型经专门设计，可减少输出令牌（output tokens）数量，并降低高分辨率图像的编码时间。
额外亮点：得益于 transformers.js 和 WebGPU 驱动，该模型可直接在浏览器中实时运行。

体验链接：

https://huggingface.co/spaces/apple/fastvlm-webgpu

( @Vaibhav (VB) Srivastav )

3、腾讯 ARC 实验室开源长时叙事音频生成模型 AudioStory

指令：制作一段完整的音频，全面展现 Jake Shimabukuro 在录音棚演奏一首复杂的尤克里里曲目，获得掌声，并在采访中谈论他的职业生涯。总时长为 49.9 秒。

腾讯 ARC 实验室公开了 AudioStory 项目，实现了基于大语言模型（LLM）的长时叙事音频生成。该系统通过 LLM 将复杂指令拆解为带时间顺序的子任务，在视频配音、音频续写、长音频合成等应用中保持情节的连贯性与情感的一致性。

其架构采用「桥接查询」来对齐事件内的语义，并通过「一致性查询」保持跨事件的连贯性，同时支持端到端训练。官方同步放出了 AudioStory-10K 基准、推理代码、演示视频与训练脚本，支持 Python 3.10、PyTorch≥2.1.0 及 NVIDIA GPU 部署。实测结果显示，在单条音频与叙事音频生成任务上，AudioStory 均优于现有的 TTA 基线模型。

1、腾讯元宝上线 AI 口语陪练功能

8 月 29 日，腾讯元宝正式上线 AI 口语陪练功能。该功能为用户提供了一个 24 小时在线的私人外教，通过中英对照、口语评测针对性跟读等模式，帮助用户随时随地提升英语口语能力。目前，该功能已在腾讯元宝手机端全面上线，用户点击首页电话图标，切换至口语陪练模式，即可免费开启对话。

功能入口：首页点右下角「电话」按钮，切换成「口语陪练」模式，直接开口就能和 AI 练对话，24 小时都有「私人外教」，想什么时候开口就什么时候开口。

（@36 氪）

2、苹果新款 AI 聊天机器人 Asa 曝光，帮助零售员工销售 iPhone

根据 MacRumors 分析师 Aaron Perris 今日提供的截图，苹果向旗下零售员工推出了一款新的 AI 聊天机器人——Asa。

该聊天机器人可以帮助员工了解更多关于苹果的优势，了解 iPhone 的不同使用案例等。员工也可以自由地向它提出任何他们想问的问题。目前，该工具仍在测试中。

分析师称，该工具将很快在苹果内部的「SEED」应用中广泛提供，帮助员工学习更多关于苹果及其产品，提升他们的销售能力。

（@极客公园）

有态度的观点

1、a16z 合伙人：AI 的下一个突破口在于硬件

Andreessen Horowitz（a16z）的合伙人 Bryan Kim 指出，尽管当前的 AI 技术已十分强大，但其潜力因被局限于网页文本框中而受到限制。为了让 AI 真正融入日常生活，它需要一个物理载体——硬件。Bryan Kim 认为，这与移动互联网的兴起类似，硬件的根本性改变能催生出全新的用户行为和应用场景。硬件设备能够被动地、持续地收集用户的行为和环境数据，为 AI 提供更丰富的语境信息，使其变得真正智能和有用。

然而，AI 硬件的成功需要克服三大挑战：形态因子必须被社会大众接受、功能价值必须足够吸引人，以及应用场景必须精确且有价值。目前，许多类似谷歌眼镜的设备仍显得过于科幻和侵扰。因此，成功的 AI 硬件需要找到一种隐形、有吸引力且具有明确价值主张的产品形态，就像为工厂工人设计的 AI 眼镜那样，它解决了一个具体而有价值的问题。只有当硬件能找到精确的切入点时，AI 才能真正从文本框中解放出来，发挥其巨大潜力。

(@ Z Potentials )