大数跨境
0
0

阶跃星辰开源端到端语音模型 Step-Audio 2 mini:理解、推理与生成统一建模;苹果发布可在浏览器运行的视觉模型丨日报

阶跃星辰开源端到端语音模型 Step-Audio 2 mini:理解、推理与生成统一建模;苹果发布可在浏览器运行的视觉模型丨日报 RTE开发者社区
2025-09-01
1
导读:本期关键词:Step-Audio 2 mini、FastVLM、Asa


开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。


本期编辑:@子禾、@鲍勃



01


有话题的技术




1、阶跃星辰发布开源端到端语音大模型 Step-Audio 2 mini





阶跃星辰(StepFun)近日正式开源了其端到端语音大模型 Step-Audio 2 mini,该模型在多项国际基准测试中取得了领先(SOTA)成绩。它将语音理解、音频推理与生成统一建模,能够处理包括语音识别、跨语种翻译、情感解析、语音对话等多种任务,其综合性能已超越 GPT-4o Audio 及其他主流开源模型。这款模型的一大亮点是原生支持 Tool Calling 能力,可实现联网搜索等高级操作,赋予其强大的知识增强和多场景应用能力。


Step-Audio 2 mini 的核心技术优势在于其创新的「真端到端」架构。与传统的「ASR+LLM+TTS」三级结构不同,它实现了从原始音频到语音响应的直接转换,显著降低了时延,并能有效理解音频中的「弦外之音」,如情绪、语调和非人声信号。此外,该模型首次在端到端语音领域引入了思维链(Chain-of-Thought, CoT)推理与强化学习的联合优化,使其具备更强的逻辑推理和自然回应能力,解决了以往语音模型「智商情商双低」的问题。


在性能上,Step-Audio 2 mini 在多个关键基准测试中表现卓越。它在通用音频理解测试集 MMAU 上得分位居榜首,在口语对话能力 URO Bench 上获得最高分。尤其在语音翻译和识别任务上,表现出压倒性优势,其英中互译、多语言与多方言识别的错误率均大幅领先其他开源模型 15% 以上。目前,该模型已在 GitHub、Hugging Face 和 ModelScope 等平台开源,欢迎开发者下载和体验。


相关链接:

https://github.com/stepfun-ai/Step-Audio2

(@阶跃星辰)



2、苹果发布实时视觉语言模型 FastVLM:速度提升 85 倍,体积缩小 3.4 倍


苹果公司近日在 Hugging Face 平台发布了 FastVLM 一系列支持 WebGPU 的实时视觉语言模型(VLM),参数量级分别为 0.5B、1.5B 和 7B。


  • 其速度比同规模 VLM 快 85 倍,模型体积小 3.4 倍。

  • 对于更大模型,其首字符生成时间(TTFT)快 7.9 倍。

  • 该模型经专门设计,可减少输出令牌(output tokens)数量,并降低高分辨率图像的编码时间。

  • 额外亮点:得益于 transformers.js 和 WebGPU 驱动,该模型可直接在浏览器中实时运行。


体验链接:

https://huggingface.co/spaces/apple/fastvlm-webgpu

( @Vaibhav (VB) Srivastav )



3、腾讯 ARC 实验室开源长时叙事音频生成模型 AudioStory


指令:制作一段完整的音频,全面展现 Jake Shimabukuro 在录音棚演奏一首复杂的尤克里里曲目,获得掌声,并在采访中谈论他的职业生涯。总时长为 49.9 秒。


腾讯 ARC 实验室公开了 AudioStory 项目,实现了基于大语言模型(LLM)的长时叙事音频生成。该系统通过 LLM 将复杂指令拆解为带时间顺序的子任务,在视频配音、音频续写、长音频合成等应用中保持情节的连贯性与情感的一致性。


其架构采用「桥接查询」来对齐事件内的语义,并通过「一致性查询」保持跨事件的连贯性,同时支持端到端训练。官方同步放出了 AudioStory-10K 基准、推理代码、演示视频与训练脚本,支持 Python 3.10、PyTorch≥2.1.0 及 NVIDIA GPU 部署。实测结果显示,在单条音频与叙事音频生成任务上,AudioStory 均优于现有的 TTA 基线模型。


相关链接:

https://github.com/TencentARC/AudioStory

(@橘鸭 Juya )





02


有亮点的产品




1、腾讯元宝上线 AI 口语陪练功能


8 月 29 日,腾讯元宝正式上线 AI 口语陪练功能。该功能为用户提供了一个 24 小时在线的私人外教,通过中英对照、口语评测针对性跟读等模式,帮助用户随时随地提升英语口语能力。目前,该功能已在腾讯元宝手机端全面上线,用户点击首页电话图标,切换至口语陪练模式,即可免费开启对话。


功能入口:首页点右下角「电话」按钮,切换成「口语陪练」模式,直接开口就能和 AI 练对话,24 小时都有「私人外教」,想什么时候开口就什么时候开口。

(@36 氪)



2、苹果新款 AI 聊天机器人 Asa 曝光,帮助零售员工销售 iPhone


根据 MacRumors 分析师 Aaron Perris 今日提供的截图,苹果向旗下零售员工推出了一款新的 AI 聊天机器人——Asa。


该聊天机器人可以帮助员工了解更多关于苹果的优势,了解 iPhone 的不同使用案例等。员工也可以自由地向它提出任何他们想问的问题。目前,该工具仍在测试中。


分析师称,该工具将很快在苹果内部的「SEED」应用中广泛提供,帮助员工学习更多关于苹果及其产品,提升他们的销售能力。

(@极客公园)





03


有态度的观点 




1、a16z 合伙人:AI 的下一个突破口在于硬件

Andreessen Horowitz(a16z)的合伙人 Bryan Kim 指出,尽管当前的 AI 技术已十分强大,但其潜力因被局限于网页文本框中而受到限制。为了让 AI 真正融入日常生活,它需要一个物理载体——硬件。Bryan Kim 认为,这与移动互联网的兴起类似,硬件的根本性改变能催生出全新的用户行为和应用场景。硬件设备能够被动地、持续地收集用户的行为和环境数据,为 AI 提供更丰富的语境信息,使其变得真正智能和有用。


然而,AI 硬件的成功需要克服三大挑战:形态因子必须被社会大众接受、功能价值必须足够吸引人,以及应用场景必须精确且有价值。目前,许多类似谷歌眼镜的设备仍显得过于科幻和侵扰。因此,成功的 AI 硬件需要找到一种隐形、有吸引力且具有明确价值主张的产品形态,就像为工厂工人设计的 AI 眼镜那样,它解决了一个具体而有价值的问题。只有当硬件能找到精确的切入点时,AI 才能真正从文本框中解放出来,发挥其巨大潜力。

(@ Z Potentials )



2、《人工智能生成合成内容标识办法》今日起施行

今年 3 月,国家互联网信息办公室、工业和信息化部、公安部、国家广播电视总局制定了《人工智能生成合成内容标识办法》,本办法自 2025 年 9 月 1 日(即今日)起施行。


《标识办法》明确,人工智能生成合成内容标识主要包括显式标识和隐式标识两种形式:


  • 显式标识是指在生成合成内容或者交互场景界面中添加的,以文字、声音、图形等方式呈现并可以被用户明显感知到的标识;

  • 隐式标识是指采取技术措施在生成合成内容文件数据中添加的,不易被用户明显感知到的标识。


依据《人工智能生成合成内容标识办法》规定:


  • 用户在发布或传播 AI 生成合成内容时,不得以任何方式删除、篡改、伪造或隐匿平台添加的 AI 标识。

  • 同时不得利用 AI 技术制作传播虚假信息、侵权信息以及从事任何违法违规活动。对于违反法律法规及平台规范的行为,平台将视违规情况进行处罚。

( @APPSO )






加入我们的 Voice Agent 社区


RTE 开发者社区持续关注 Voice Agent 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣,也期待和更多开发者交流(每个月都有线上/线下 meetup,以及学习笔记分享),欢迎加入我们的社区微信群,一同探索人和 AI 的实时互动新范式。


加入我们:加微信 Creators2022,备注身份和来意(公司/项目+职位+加群),备注完整者优先加群。




图片

更多 Voice Agent 学习笔记:

硅谷顶级 VC 如何看语音 AI?Greylock 合伙人揭秘 Voice Agent 构建的三层策略

AI 客服还不够聪明,但已超过月薪五千的人类丨RTE Meetup 回顾


引爆 AI 会议工具潮流,Granola 打造 2.5 亿美元估值产品的秘密丨Voice Agent 学习笔记

活动回顾丨主动式语音 AI:全双工加持,让 AI 既会抢答也懂适时沉默丨RTE Meetup

GPT-4o 之后,Voice 从 Assistant 到 Agent,新机会藏在哪些场景里?|Voice Agent 学习笔记

对话 Wispr Flow 创始人 Tanay:语音输入,如何创造极致的 Voice AI 产品体验

Notion 创始人 Ivan Zhao:传统软件开发是造桥,AI 开发更像酿酒,提供环境让 AI 自行发展

ElevenLabs 语音智能体提示词指南——解锁 AI 语音交互的「灵魂秘籍」丨 Voice Agent 学习笔记

11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨Voice Agent 学习笔记

实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨Voice Agent 学习笔记








写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。



【声明】内容源于网络
0
0
RTE开发者社区
RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。
内容 1122
粉丝 0
RTE开发者社区 RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。
总阅读653
粉丝0
内容1.1k