01
有话题的技术
1、字节跳动 Seed 推出 GR-RL,机器人首次完成真机穿鞋带
昨天,字节跳动 Seed Research 团队正式发布最新研究成果 GR-RL,在真实机器人平台上首次实现了「连续为整只鞋穿鞋带」的复杂操作。
字节跳动称,这一突破标志着视觉-语言-动作(VLA)模型在精细灵巧任务上的能力边界被显著拓展。
团队指出,主流模仿学习存在两大缺陷:人类演示数据的「次优性」以及训练与推理之间的「执行错位」,导致模型在毫米级精度任务中频繁失败。
为此,Seed 团队选择真机强化学习路径,提出了多阶段训练框架,包括离线数据筛选、数据增强以及在线强化学习。
在双臂机器人 ByteMini-v2 上,GR-RL 将穿鞋带任务成功率从监督学习基线 GR-3 的 45.7% 提升至 83.3%,失败率减少近 70%。
其中,数据过滤、镜像增强和在线强化学习均对性能提升贡献显著。实验中,模型展现出类似人类的「纠错智能」,在鞋带滑落或摆放位置不佳时能主动调整并重试,体现了对任务物理逻辑的理解,而非单纯轨迹记忆。
团队认为,强化学习经验应进一步蒸馏回基础 VLA 模型,以构建兼具高精度操作与强大泛化能力的通用策略。
论文链接:
https://arxiv.org/abs/2512.01801
项目主页:
https://seed.bytedance.com/gr_rl
( @APPSO)
2、AWS 发布 Amazon Nova 2 Omni 预览版:行业首个多模态推理与图像生成一体化模型
AWS 宣布推出 Amazon Nova 2 Omni 的预览版,这是一款行业首创的、集成了多模态推理与图像生成能力的通用模型。该模型能够处理文本、图像、视频和语音输入,并生成文本和图像输出,极大地简化了多模态 AI 应用的开发和管理。
该模型支持 100 万 token 的上下文窗口,文本处理支持 200+ 语言,语音输入支持 10 种语言。能够通过自然语言生成和编辑高质量图像,实现角色一致性、图像内文本渲染及对象/背景修改。
该模型可进行多说话人对话的转录、翻译和摘要。具备灵活的推理控制,确保在不同用例下的性能、准确性和成本效益。 可用于营销内容创作、客户支持电话转录、视频分析以及带视觉辅助的文档生成等多样化任务。
Amazon Nova 2 Omni 目前处于预览阶段,Nova Forge 客户可申请早期访问。
https://aws.amazon.com/about-aws/whats-new/2025/12/amazon-nova-2-omni-preview/
(@AWS News Blog)
3、Amazon Nova 2 Sonic 发布:端到端、多语言切换、跨模态交互
AWS 发布了 Amazon Bedrock 的新一代语音到语音(speech-to-speech)基础模型 Amazon Nova 2 Sonic。该模型在对话质量、成本效益和语音理解方面实现了行业领先,能够为开发者构建更自然、更具人情味的语音应用程序,实现突破性的实时语音交互体验。
突破性对话质量: Nova 2 Sonic 在保持对话连贯性和人类偏好方面表现出色,能够自然处理用户打断,并提供富有表现力的男性和女性声音,支持多语言的流畅切换(code-switching)。
增强的智能与可靠性: 该模型在 Big Bench Audio、BFCL 和 ComplexFuncBench 等关键评估基准上表现优异,展现了更强的推理能力、更准确的功能调用和更复杂的任务处理能力。ASR 准确性也得到提升,能更好地处理数字、短语及 8KHz 电话语音。
多语言与 Polyglot 声音: 除了原有的语言,Nova 2 Sonic 新增了葡萄牙语和印地语支持。其创新的「Polyglot Voices」功能允许同一声音在同一对话中无缝切换语言,极大地简化了为全球用户构建多语言应用。
跨模态交互: 用户可以在同一会话中混合使用文本和语音输入,例如先输入文本,再通过语音进行回应,实现更灵活的交互方式。
高级多智能体能力: Nova 2 Sonic 支持异步工具调用,允许 AI 在后台运行外部工具或服务的同时,继续响应用户输入,从而处理更复杂的多步骤任务,保持对话的流畅性和响应性。
深度集成: 模型已直接集成到 Amazon Connect、Vonage、Twilio 等主流电话服务提供商以及 LiveKit 和 Pipecat 等媒体平台,简化了在现有呼叫中心基础设施或新电话服务中的部署。
Amazon Nova 2 Sonic 已通过 Amazon Bedrock 提供通用可用性,模型 ID 为 amazon.nova-2-sonic-v1:0。该模型在 US East (N。 Virginia), US West (Oregon), Asia Pacific (Tokyo), 和 Europe (Stockholm) AWS 区域可用。定价与原 Nova Sonic 保持一致。
(@AWS News Blog)
4、Kyutai 团队创立新语音 AI 公司 Gradium,种子轮融资 7000 万美元
初创公司 Gradium 今日宣布成功完成 7000 万美元种子轮融资,投资方包括前谷歌首席执行官埃里克·施密特、法国电信亿万富翁泽维尔·尼尔和 Yann LeCun 等投资者。
正式推出同名核心引擎 Gradium 是一种开创性的「音频语言模型」(Audio LLM),它将语音的生成、转录、转换和对话统一到一个单一的神经网络架构中。该模型旨在实现超真实、富有情感表达、低延迟且高效可扩展的语音交互。最终使自然、实时的语音成为人机交互的默认界面。
其创始团队与非营利实验室 Kyutai 有着深厚渊源,该实验室在多模态 LLM 领域取得了显著进展,包括在 2024 年开源了实时对话模型 Moshi。
首席执行官 Neil Zeghidour 已退出 Kyutai 的日常工作,但将加入其董事会。他表示这家非营利组织仍致力于开发开源 AI 模型和研究的使命。这家初创公司目前有八名员工。
公司由四位来自 Meta 和 Google DeepMind 的生成式音频领域先驱者联合创立。他们不仅在神经网络音频编解码器和音频语言模型等方面做出开创性贡献,还共同创建了非营利实验室 Kyutai。
目前 Gradium 已支持英语、法语、德语、西班牙语和葡萄牙语的实时转录和合成功能。其技术已应用于医疗、客户支持、市场研究中的语音智能体,以及游戏 NPC 和数字广告中的虚拟形象。
开发者和企业可以通过访问 gradium.ai 探索 Demo、试用 API。
体验 demo:https://gradium.ai/#demo
(@Gradium Blog、@Bloomberg)
02
有亮点的产品
1、Hedy AI 推出「Topic Insights」,首创跨会话会议智能技术
Hedy AI 发布了其最新功能「Topic Insights」,这是行业内首个能够跨多个相关会议分析模式的技术。该功能解决了现有会议 AI 平台在处理连续性对话方面的短板,通过理解讨论如何随时间演变,提供了真正的对话连续性,从而帮助专业人士更好地跟踪决策和进展。
跨会话模式识别: 「Topic Insights」能够识别反复出现的主题,追踪不断发展的讨论,并突出在无限相关对话中利益相关者立场的变动。
智能会议准备: 在开始新会议时,用户将收到 AI 生成的准备笔记,其中包含之前会议中已做出的承诺、待解决的问题以及未解决的事项。
情境感知分析: 该智能体能自动识别对话类型,并为商业会议、医疗咨询、学术讲座、面试等九种不同专业场景应用专门的分析框架。
行业预测: 预计到 2030 年,全球会议智能市场将达到 136 亿美元,而 67% 的专业人士认为会议准备是一项主要的生产力挑战,凸显了该功能的重要性。
技术创新: 该功能得益于突破性的对话 AI 架构,包括保持会话上下文的「Contextual Memory Architecture」和零幻觉设计,确保所有洞察均基于实际内容。
「Topic Insights」已立即面向所有 Hedy Pro 订阅用户推出,支持 iOS、Android、macOS 和 Windows 平台。该功能包含在 Hedy Pro 订阅中,价格为每月 9.99 美元,每年 69.99 美元,或一次性终身访问 199 美元。此外,还提供每月 5 小时使用量的免费套餐。
(@GlobeNewswire)
2、AI 情感交互台灯「Ongo」发布,玩具总动员编剧参与设计
昨天,互动机器人公司 InteractionLabs 宣布正式发布 AI 台灯 Ongo,定位为「有生命的台灯」,除具备照明功能外,还能通过人工智能与用户进行情感交互。
该产品由 CEO Karim Rkha Chaham 与 CTO Julien Ajdenbaum 共同开发,创意总监为曾获奥斯卡提名的玩具总动员编剧 Alec Sokolow。
Ongo 的设计强调情感智能与环境感知。它能够识别用户的面部表情,感知工作节奏,并通过光线与动作进行回应,帮助用户在专注时自动调暗灯光,营造安静氛围。
此外,设备捕捉到的视觉数据仅在端侧处理,确保隐私安全,并配备可磁吸的遮光镜片以提供完全的隐私模式。
在功能层面,Ongo 的交互逻辑由故事化设计驱动,旨在减少用户对屏幕的依赖,成为桌面上的情感伙伴。有开发者提出,未来 Ongo 或可结合健康监测模型,实现水分与血糖水平的检测。
发售不久后,CEO Karim 在 X 上宣布,首批 100 台 Ongo 已售罄,并将开放新的购买名额。
( @APPSO)
03
有态度的观点
1、英伟达 CFO 否认「AI 泡沫」论
NVIDIA 靠 AI 成为全球首个 5 万亿美元市值的科技巨头,尽管现在股价比高峰跌落了 10%,也引发了 AI 泡沫的争议,但 NVIDIA 对此坚决否认。
该公司 CFO Colette Kress 表示,她并不认为人工智能领域存在泡沫,相反的是,她预计未来市场将发生重大转型。
预计到 2030 年,在对加速计算需求不断增长的推动下,数据中心基础设施规模可能达到 3 万亿至 4 万亿美元。
Colette Kress 还提到,目前出货的大多数 NVIDIA AI 芯片都是用于构建新的数据中心基础设施,而不是替换现有设备。
她还表示,到 2026 年,NVIDIA 手中 Blackwell 和 Rubin 两款 GPU 芯片订单额高达 5000 亿美元(超过 3.5 万亿元)。
而且这些订单还不包括 NVIDIA 目前正就 OpenAI 下一阶段协议所做的任何工作,Colette Kress 称 NVIDIA 与 OpenAI 完成一份最终协议,OpenAI 正继续沿着他们的道路前进,NVIDIA 相信与他们的合作永远不会停止。
(@AI 数字经济)
04
社区黑板报
招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)
1、活动推荐:Interspeech 2026 丨首届音频推理挑战赛
由来自上海交通大学、南洋理工大学、伦敦玛丽女王大学、卡内基梅隆大学、英伟达、阿里巴巴、微软的研究者们联合举办的 Interspeech 2026 音频推理挑战赛现已开启!本次挑战赛旨在解决当前大型音频语言模型(LALM)推理能力有限且不稳定的问题,聚焦于复杂声学场景下的思维链(CoT)推理能力。挑战赛设有以下两个赛道:
单模型赛道 (Single Model Track): 聚焦于基于开源模型进行数据创新与训练创新,提升模型内在的推理能力。
智能体赛道 (Agent Track): 聚焦于基于开源模型的系统级编排与工具调用能力。
挑战赛将会同时测评模型结果和推理过程的准确性与逻辑性,希望本次挑战能够激发音频推理领域新的模型创新和系统创新。所有参赛队伍均可以在 Interspeech 2026 主会提交系统报告或研究论文,欢迎大家报名参加,相聚悉尼!
赛事官网:https://audio-reasoning-challenge.github.io/
请注意报名截止时间是 2026 年 1 月 15 日,只有成功注册的队伍才可以后续在 leaderboard 开启后提交。
加入我们的 Voice Agent 社区
RTE 开发者社区持续关注 Voice Agent 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣,也期待和更多开发者交流(每个月都有线上/线下 meetup,以及学习笔记分享),欢迎加入我们的社区微信群,一同探索人和 AI 的实时互动新范式。
加入我们:加微信 Creators2022,备注身份和来意(公司/项目+职位+加群),备注完整者优先加群。
Pion 创始人聊 WebRTC、AI、SIP 和 QUIC I Voice Agent 学习笔记
2025 年语音 AI 趋势十大洞察丨Voice Agent 学习笔记
硅谷顶级 VC 如何看语音 AI?Greylock 合伙人揭秘 Voice Agent 构建的三层策略
AI 客服还不够聪明,但已超过月薪五千的人类丨RTE Meetup 回顾
引爆 AI 会议工具潮流,Granola 打造 2.5 亿美元估值产品的秘密丨Voice Agent 学习笔记
活动回顾丨主动式语音 AI:全双工加持,让 AI 既会抢答也懂适时沉默丨RTE Meetup
GPT-4o 之后,Voice 从 Assistant 到 Agent,新机会藏在哪些场景里?|Voice Agent 学习笔记
对话 Wispr Flow 创始人 Tanay:语音输入,如何创造极致的 Voice AI 产品体验
Notion 创始人 Ivan Zhao:传统软件开发是造桥,AI 开发更像酿酒,提供环境让 AI 自行发展
ElevenLabs 语音智能体提示词指南——解锁 AI 语音交互的「灵魂秘籍」丨 Voice Agent 学习笔记
写在最后:

