智谱开源 GLM-ASR 系列语音识别模型；Pebble 发布智能指环 Index 01：本地语音转录与指令执行丨日报

RTE开发者社区

2025-12-10

导读：本期关键词：千亿级模型、语音任务化交互、活动报名

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@瓒an、@鲍勃

有话题的技术

1、NatureSelect 发布 Echo-N1：首个情感大模型，32B 参数模型在情感陪伴任务中超越千亿级模型

NatureSelect 团队发布了首个情感大模型 Echo-N1。该 32B 参数模型通过创新的「情感强化学习」（Affective RL）和「共情的心理物理模型」（EPM），在情感陪伴任务中取得了 46.7% 的胜率，远超千亿参数商业模型（13.3%）。

情感 RL 范式创新: 解决了传统 RL 难以应用于主观情感评估的问题，通过「生成式奖励模型」（Generative Reward Model）引入「Humanlike Reward」（拟人度奖励）和「Empathy Reward」（共情奖励），并辅以「过程性奖励」和「离散化奖励」策略，提升训练稳定性。
EPM 情感物理模型: 将抽象的「共情」量化为可计算的物理过程，通过「心理势能」、「做功」和「MDEP 三维心理空间」（认知重构 C、情感共鸣 A、主动赋能 P）来衡量 AI 的情感交互效果。
「拟人化认知沙盒」评测: 构建了一个模拟人类多重认知模块协同运作的多智能体系统，用于动态、真实的复杂心智模拟测试，解决了传统评测方法在情感交互上的局限。
越级性能表现: 32B 参数的 Echo-N1 在 30 个高难度心理场景测试中，综合得分 73.54，远高于 Doubao 1.5 Character 的 42.95 分，证明了其在情感交互上的优越性。
基座模型局限性: 未经情感强化学习训练的基座模型（Qwen3-32B）在该评测中通过率为 0%，显示了专门情感训练的必要性。

论文标题：

Echo-N1: Affective RL Frontier

论文链接：

https://arxiv.org/pdf/2512.00344v1

（@机器之心）

2、fal 完成 1.4 亿美元 D 轮融资，估值达 45 亿美元，为开发者提供多模态 AI 模型基础设施

AI 模型托管平台「fal」宣布完成 1.4 亿美元 D 轮融资，由 Sequoia 领投，估值达到 45 亿美元，较上一轮估值增长约两倍。此轮融资包括 Kleiner Perkins、NVIDIA 及现有投资者的参与，进一步巩固了「fal」作为多模态 AI 基础设施提供商的地位。

融资详情：D 轮融资 1.4 亿美元，估值 45 亿美元，较 7 月份 C 轮融资（估值约 15 亿美元）增长约三倍。此轮包含约 2.5 亿美元的融资总额，其中 1.4 亿美元为新增资本，其余为现有投资者出售股份。
平台定位：为开发者提供托管图像、视频和音频 AI 模型的基础设施，是 Adobe、Shopify、Canva、Quora 等客户的多模态 AI 基础设施提供商。
营收增长：截至 10 月，公司营收已超 2 亿美元，自 2021 年成立以来增长迅速。

（@TechCrunch）

有亮点的产品

1、智谱 AI 发布 GLM-ASR 系列开源模型及 AI 输入法，实现语音任务化交互

今天，智谱正式发布并开源 GLM-ASR 系列语音识别模型，并推出基于该系列模型打造的桌面端智谱 AI 输入法。

智谱 AI 正式发布并开源了新一代语音识别模型 GLM-ASR 系列，包括云端模型 GLM-ASR-2512 和 1.5B 参数的端侧模型 GLM-ASR-Nano-2512。同时，基于这些模型推出了桌面端「智谱 AI 输入法」，将语音识别与大模型能力深度融合，使用户能直接通过语音完成翻译、改写、代码编写等任务。

GLM-ASR-2512 （云端模型）:

体验中心：https://bigmodel.cn/trialcenter/modeltrial/voice
接口文档：https://docs.bigmodel.cn/api-reference/模型-api/语音转文本

性能：行业领先的云端语音识别模型，字符错误率（CER）仅为 0.0717。
适用场景：支持多场景、多语种、多口音的真实复杂环境。
使用指南：https://docs.bigmodel.cn/cn/guide/models/sound-and-video/glm-asr-2512

GLM-ASR-Nano-2512 （端侧模型）:

Hugging Face: https://huggingface.co/zai-org/GLM-ASR-Nano-2512
魔搭社区：https://www.modelscope.cn/models/ZhipuAI/GLM-ASR-Nano-2512

参数量： 1.5B 参数，为当前开源语音识别方向的 SOTA 模型。
优势：实现本地运行，提供更强的隐私保护和更低的交互延迟，部分测试中优于闭源模型。
开源：权重及推理代码已发布，可在 Hugging Face 和魔搭社区获取。

智谱 AI 输入法：

核心功能：将语音识别与大模型能力整合，实现「语音即指令」的 PC 端交互。
语音转文字：精准的语音转文字功能。
一体化内容编辑：直接调用底层 GLM 模型对屏幕上任意文字进行翻译、扩写、精简、润色，完成「理解-执行-替换」一体化操作。
人设切换：支持设置不同「人设」风格，使同一句话在工作、生活等场景下有不同表达。
Vibe Coding: 专为开发者设计，通过语音快速输入代码逻辑、注释

目前，智谱 AI 输入法面向所有用户开放，并免费提供 2000 积分，相当于 28 天使用时长。

Mac/Win 访问下载：

https://autoglm.zhipuai.cn/autotyper/

（@智谱）

2、Pebble Index 01 智能指环：内置麦克风，支持本地 LLM 转录与指令执行

Pebble 推出 Index 01 智能指环，定价 99 美元。该指环专注于语音记录，通过内置麦克风捕捉用户的「想法」，并利用手机上的本地 LLM 将其转化为文本及指令，实现笔记记录或提醒设置。

单功能设计：专注于语音记录，而非健康或健身追踪。
本地 LLM 处理：录音传输至手机后，通过设备上的 LLM 将语音转录为文本并执行预设动作（如添加笔记、设置提醒），无需云端处理，强调隐私。
一次性电池与环保回收：采用不可充电电池，续航约 12-15 小时（基于每日 10-20 次、3-6 秒的录音使用）。预期寿命约 2 年，届满后需寄回 Pebble 进行回收。
开发者可定制接口：允许用户编程按钮（单按/双按），自定义语音动作，并将音频录音发送至自有应用或服务器。
价格与上市：预售价格 75 美元，正式上市后涨至 99 美元。预计 2026 年 3 月发货。

官网链接：

http://rePebble.com/index

(@Gizmodo)

3、Questom 推出 AI 销售智能体：自动化 B2B 入站对话，提升收入

Questom 发布了面向 B2B 企业的 AI 销售智能体，旨在自动化处理入站销售对话（电话、邮件、聊天）。这些智能体能够收集需求、生成报价、发送更新，并将整个对话流程转化为收入，同时减轻销售团队的重复性工作负担。

多渠道对话自动化： 智能体直接集成到 B2B 团队常用的沟通渠道（电话、邮件、聊天、短信），实现端到端的入站对话处理。
定制化业务逻辑学习： 智能体可学习并应用客户特有的产品目录、定价规则、折扣、例外情况、生产限制、审批流程以及 CRM/ERP 系统逻辑，确保报价和响应的准确性。
核心销售流程自动化： 能够即时回答问题、收集订单需求、生成报价及修订、管理后续跟进、发送状态更新，并将结构化订单数据推送到 ERP/CRM 系统。
高自动化率与 AOV 提升： 早期测试结果显示，高达 50% 的入站销售对话可实现完全自动化，并通过智能追加销售显著提升平均订单价值（AOV）。
智能人机协作： 智能体在必要时将对话无缝转交给人类销售人员，并提供完整的上下文信息，确保业务流程不中断。