大数跨境
0
0

Huxe 推出主动式 AI 音频服务,无感内容消费;OpenAI 推出 ChatGPT Pulse:主动提供个性化信息丨日报

Huxe 推出主动式 AI 音频服务,无感内容消费;OpenAI 推出 ChatGPT Pulse:主动提供个性化信息丨日报 RTE开发者社区
2025-09-26
2
导读:本期关键词:主动式 AI 音频、ChatGPT Pulse、超级人工智能


开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。


本期编辑:@Jerry fong,@鲍勃



01


有话题的技术




1、Liquid AI 发布 LFM2-2.6B 模型,小参数量展现顶级性能


Liquid AI 近日宣布推出其 Liquid Foundation Model 2 系列中最新且目前最大的模型 LFM2-2.6B。该模型拥有 26 亿参数,虽参数量较小,但凭借在 10 万亿 Token 数据上的密集训练,其性能表现足以比肩甚至超越 3B+ 级别的模型。


LFM2-2.6B 在关键基准测试中展现出卓越实力:


  • 数学推理:在 GSM8K 测试中得分高达 82.41%

  • 指令遵循:IFEval 测试得分 79.56%


该模型专门针对英语和日语进行了优化,同时在法语、西班牙语、德语、意大利语、葡萄牙语、阿拉伯语、中文和韩语等多种语言上也保持了强大性能,使其成为全球应用的理想选择。


相关链接:

https://huggingface.co/LiquidAI/LFM2-2.6B

https://www.liquid.ai/lfm-7b


(@Liquid AI)



2、智源发布「RoboBrain-Audio」:首个原生全双工语音大模型,赋能「边听边说」具身智能体


北京智源人工智能研究院联合 Spin Matrix 与新加坡南洋理工大学,近日正式发布了 「RoboBrain-Audio」 (FLM-Audio) —— 全球首个支持「自然独白 + 双训练范式」原生全双工语音对话大模型。该模型彻底突破了传统语音交互高延迟、低自然度的瓶颈,实现了 80ms 级别的打断响应延迟,使 AI 智能体能够「边听边说」,从而显著提升人机交互的自然度与鲁棒性,是具身智能体发展的重要里程碑。


关键亮点


  • 「原生全双工」架构突破: 「RoboBrain-Audio」采用创新的原生全双工 (Native Full-duplex) 架构,实现了从传统的「时分复用 (TDM)」模式向「同步对话」的飞跃,将打断响应延迟降至最低 80ms 级别,极大提升了对话的自然度和响应速度。


  • 「自然独白 + 双训练范式」核心创新:


  • 「自然独白」对齐: 摒弃高成本的词级对齐,创新性地采用句级对齐,确保语言大模型在生成连贯性和指令理解上的优势,同时解决了上下文依赖发音问题,降低了训练数据成本。

  • 「双训练范式」: 模型训练分为后训练阶段(赋予模型「听」和「说」的基础能力,通过 TTS 和 ASR 风格交替训练)和有监督微调阶段(塑造对话与全双工能力,引入用户随机打断训练),构建「听说能力」全闭环。

  • 卓越性能与数据高效性: 在仅使用 100 万小时(业界领先模型的 1%)数据训练下,其回复质量满足日常交互需求,并展现出更为敏捷自然的响应模式,特别适配具身场景。在语音理解(ASR)和语音生成(TTS)任务中,RoboBrain-Audio 性能全面领先其他原生全双工模型。

  • 强鲁棒性与高自然度: 能够迅速停顿当前输出、准确理解新的问题并即时作答,展现出真实交流中所需的全双工、强鲁棒性与高自然度。

  • 开源生态赋能具身智能体: 相关论文已公开发布,模型与代码均已开源 (Hugging Face、GitHub)。它是智源 RoboBrain 系列面向「具身智能体」的关键能力载体,将语音交互能力与具身感知、规划与操作相结合,加速构建「听懂人话、看懂世界、动手做事」的机器人智能体。



RoboBrain-Audio (FLM-Audio) 相关论文:

https://arxiv.org/abs/2509.02521

Hugging Face : 

https://huggingface.co/CofeAI/FLM-Audio

GitHub : 

https://github.com/cofe-ai/flm-audio


(@机器之心)





02


有亮点的产品




1、flowith iOS app 升级为主动式语音智能体



Flowith 升级了 iOS 应用,推出主动式语音智能体:在用户轻触屏幕前,它会倾听并根据上下文采取行动。


相关链接:

https://x.com/flowith_ai/status/1970491498983760318?s=46


(@flowith@X)



2、Huxe 推出 AI个性化音频服务:定制化内容,实现无感化内容消费



由 NotebookLM 团队创立的初创公司 Huxe,近日正式发布其首款 AI 驱动的个性化音频服务。该服务旨在通过提供基于用户兴趣和习惯的定制内容来减少屏幕时间,从而重新定义媒体消费体验,并探索 AI 在超个性化内容交付中的巨大潜力,帮助用户更高效、沉浸式地获取信息与娱乐。


  • 核心产品理念: 「Huxe」推出 AI 驱动的个性化音频服务,核心目标是减少用户屏幕时间,通过定制化音频内容提供信息和娱乐,实现无感化内容消费。

  • 「Daily Briefings」与「Live Stations」: 服务包括「Daily Briefings」功能,可自动汇总用户的电子邮件、日历事件和新闻;「Live Stations」则提供用户指定主题的实时更新音频流。

  • 「DeepCasts」实现超个性化: 推出 AI 生成的个性化播客「DeepCasts」,可根据用户请求或主动学习用户偏好生成内容,涵盖从竞品分析到小众历史等广泛主题。

  • 「主动式」内容策展: Huxe 的个性化方法强调内容的「主动性」,通过 AI 和 LLM 深入理解个体行为和偏好,不仅响应用户需求,更能预测并提供新鲜、相关的内容。

  • 重塑媒体消费体验: 此举是媒体行业向情境感知和实时个性化转变的一部分,有望通过更高效、更契合个体需求的内容交付,彻底改变用户体验。


相关链接:

https://x.com/gethuxe/status/1970503800885854431

(@Huxe / X post)



3、OpenAI 推出 ChatGPT Pulse:AI 主动为你提供个性化信息


OpenAI 发布了「ChatGPT Pulse」的预览版,该功能允许 ChatGPT 主动进行研究,并根据用户的聊天记录、反馈和连接的应用(如日历)提供个性化的每日更新。这项新功能旨在将 ChatGPT 从被动问答转变为一个能主动服务用户的智能体,帮助用户节省时间并取得更多进展。


主动式信息推送: 「ChatGPT Pulse」不再需要用户提问,而是会在每晚根据用户的历史对话、反馈以及连接的 Gmail 和 Google Calendar 等应用,综合分析出与用户最相关的信息,并在第二天早上以卡片形式推送。


个性化内容与定制: 用户可以通过直接反馈(点赞/点踩)或明确指示来「策展」Pulse 的内容,例如要求获取特定领域的更新或研究建议,从而让 Pulse 越来越符合个人需求。


智能体新范式: 这是 OpenAI 迈向更高级 AI 助手的关键一步,未来的 AI 系统有望在用户指示下进行研究、规划并采取行动,实现“在你不在时也能取得进展”。


安全与隐私考量: 「ChatGPT Pulse」推送的所有话题都会经过安全检查,以避免出现违反 OpenAI 政策的有害内容。用户对连接的应用(如 Gmail、Calendar)拥有控制权,可以随时开启或关闭集成。


「ChatGPT Pulse」目前仅对 Pro 用户在移动端开放预览,未来计划推广至 Plus 用户,并最终面向所有用户。


(@OpenAI Blog)





03


有态度的观点 




1、阿里 CEO:终极目标是超级人工智能


9 月 24 日,在杭州召开的云栖大会上,阿里巴巴集团 CEO、阿里云智能集团董事长兼 CEO 吴泳铭发表主旨演讲。


他表示,实现通用人工智能 AGI 已是「确定性事件」,但这只是起点,终极目标是发展出能自我迭代、全面超越人类的超级人工智能 ASI。


智能化革命将远超我们的想象,通用人工智能不仅会放大人类的智力,还将解放人类的潜能,为超级人工智能(ASI)的到来奠定道路。


吴泳铭首次系统阐述了通往 ASI 的三阶段演进路线:


第一阶段「智能涌现」:AI 通过学习海量人类知识具备泛化智能;

第二阶段「自主行动」:AI 掌握工具使用和编程能力,进入「辅助人」阶段;

第三阶段「自我迭代」:AI 通过连接物理世界并实现自学习,最终实现「超越人」。


在战略路径上,阿里云将坚持两大方向:


通义千问坚定走开源开放路线,目标是打造「AI 时代的 Android」;

构建作为「下一代计算机」的超级 AI 云,为全球提供智能算力网络。


吴泳铭透露,阿里巴巴正在推进三年 3800 亿的 AI 基础设施建设计划,并预计到 2032 年,阿里云全球数据中心的能耗规模将较 2022 年提升 10 倍,以迎接 ASI 时代的到来。据悉,自 2015 年首次举办以来,云栖大会已走过十年历程,逐渐成为中国科技产业的重要风向标。


(@APPSO)






加入我们的 Voice Agent 社区


RTE 开发者社区持续关注 Voice Agent 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣,也期待和更多开发者交流(每个月都有线上/线下 meetup,以及学习笔记分享),欢迎加入我们的社区微信群,一同探索人和 AI 的实时互动新范式。


加入我们:加微信 Creators2022,备注身份和来意(公司/项目+职位+加群),备注完整者优先加群。





更多 Voice Agent 学习笔记:

硅谷顶级 VC 如何看语音 AI?Greylock 合伙人揭秘 Voice Agent 构建的三层策略

AI 客服还不够聪明,但已超过月薪五千的人类丨RTE Meetup 回顾


引爆 AI 会议工具潮流,Granola 打造 2.5 亿美元估值产品的秘密丨Voice Agent 学习笔记

活动回顾丨主动式语音 AI:全双工加持,让 AI 既会抢答也懂适时沉默丨RTE Meetup

GPT-4o 之后,Voice 从 Assistant 到 Agent,新机会藏在哪些场景里?|Voice Agent 学习笔记

对话 Wispr Flow 创始人 Tanay:语音输入,如何创造极致的 Voice AI 产品体验

Notion 创始人 Ivan Zhao:传统软件开发是造桥,AI 开发更像酿酒,提供环境让 AI 自行发展

ElevenLabs 语音智能体提示词指南——解锁 AI 语音交互的「灵魂秘籍」丨 Voice Agent 学习笔记

11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨Voice Agent 学习笔记

实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨Voice Agent 学习笔记







写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。



【声明】内容源于网络
0
0
RTE开发者社区
RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。
内容 1122
粉丝 0
RTE开发者社区 RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。
总阅读1.7k
粉丝0
内容1.1k