大数跨境
0
0

球星 C 罗投资 AI 初创 Perplexity;微软开源 VibeVoice-Realtime,低延迟流式输出丨日报

球星 C 罗投资 AI 初创 Perplexity;微软开源 VibeVoice-Realtime,低延迟流式输出丨日报 RTE开发者社区
2025-12-05
1
导读:本期关键词:智能体支付、C 罗、豆包手机

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。


本期编辑:@瓒an、@鲍勃



01


有话题的技术




1、TheWhisper开源 STT/TTS 解决方案,支持流式处理与设备端推理



TheWhisper 项目发布了一个高性能、流式处理的语音转文本(Speech-to-Text, STT)和文本转语音(Text-to-Speech, TTS)的开源解决方案。该项目专注于高效的自托管、云托管及设备端推理,并提供优化的模型和引擎,支持包括 NVIDIA GPU 和 Apple Silicon 在内的多种硬件。


优化的 Whisper 模型: 提供微调后的 Whisper 模型,支持 10s、15s、20s 和 30s 等灵活的音频分块(chunk size)推理,打破了原版 Whisper 模型 30s 的限制。


高性能推理引擎:


  • NVIDIA GPU: 通过 TheStage AI 的优化引擎,在 L40s GPU 上可达 220 tok/s 的推理速度(对于 whisper-large-v3 模型)。

  • Apple Silicon: 为 macOS/Apple Silicon 提供 CoreML 引擎,实现全球最低功耗,MacBook 运行时功耗约 2W,RAM 占用约 2GB。

  • 流式处理支持: 同时支持 NVIDIA 和 macOS 平台进行低延迟的流式语音转文本处理,适用于实时字幕、会议记录等场景。

  • 多平台部署: 提供本地 REST API 和前端示例(JS, Electron),并包含一个由 TheStage AI 构建的 macOS 原生应用 「TheNotes」。

  • 基准测试与质量评估: 提供了详尽的性能(延迟、内存、功耗)和语音识别准确性(ASR accuracy, OpenASR benchmark)测试数据,证明了其在不同分块大小下的 Word Error Rate (WER)。

  • 灵活的授权与使用: 模型权重(Hugging Face)、NVIDIA 引擎(TheStage AI 优化,对小型组织免费)及 Apple CoreML 引擎均提供 MIT 许可证或免费使用。


该项目已在 GitHub 上开源,提供 MIT 许可证。NVIDIA 引擎对小型组织免费,Apple Silicon 版本也完全免费。计划未来支持 Jetson 平台、容器化部署及 Speaker Diarization 功能。


GitHub: 

https://github.com/TheStageAI/TheWhisper


(@GitHub)



2、Microsoft 开源 VibeVoice-Realtime-0.5B:低延迟、流式文本转语音模型


Microsoft 在 Hugging Face 上开源了 VibeVoice-Realtime-0.5B,一个轻量级的实时文本转语音(TTS)模型。该模型支持流式文本输入,能生成高质量的语音,并以约 300 毫秒(硬件相关)的延迟产生首段可听语音,适用于实时 TTS 服务、数据流播报以及 LLM 的即时语音响应。


  • 实时流式 TTS: 支持流式文本输入,能够从 LLM 生成的第一个 token 开始即可发声,实现真正的实时语音输出。

  • 高效的架构设计: 采用交错式、窗口化设计,增量编码文本,并并行进行基于扩散模型的声学潜在生成。移除了语义分词器,仅使用高效的声学分词器(7.5 Hz 帧率)。

  • 轻量级与部署友好: 参数量为 0.5B,易于部署。

  • 低延迟生成: 首段可听语音延迟约 300 毫秒。

  • 长文本语音生成: 支持健壮的长篇幅语音生成。

  • 基于 Transformer LLM: 集成了 Qwen2.5-0.5B LLM,配合定制的声学分词器(σ-VAE 变体,3200x 下采样)和扩散解码头。

  • 仅支持英语: 目前该模型仅针对英语数据进行训练,其他语言的输出可能不可预测。

  • 负责任的 AI 考量: 移除了声学分词器以避免语音嵌入创建,自动在合成音频中嵌入免责声明(「This segment was generated by AI」),并添加了不可感知的数字水印。


VibeVoice-Realtime-0.5B 模型已开源,采用 MIT 许可证,可通过 Hugging Face 获取。模型目前仅支持英语,且仅供研究目的使用。


相关链接:https://huggingface.co/


(@Hugging Face)



3、全球首个智能体支付落地:ANP 发布 AP2 协议实现,智能体商务生态迈出关键一步


ANP(Agent Network Protocol)开源社区与杭州向量共识宣布,已成功完成基于 ANP 协议的 AP2(Agent Payment Protocol)首个落地实现。这为智能体(Agent)商务生态提供了首个可用的支付基础设施,标志着智能体从「能对话」进化到「能交易」的关键一步。


  • AP2 协议落地: 成功实现了 Google 于 2025 年 9 月发布的 AP2 协议,解决了智能体交易中的核心信任问题,让用户敢于放心地让 AI 代为购物,并能在出错时找到责任人。

  • ANP 协议集成优势: ANP 作为底层协议,采用 DID(去中心化身份)作为智能体身份方案,为 AP2 的公钥分发提供了天然的解决方案,使得在 ANP 上运行 AP2 比在 A2A(Agent-to-Agent)上更简单。

  • 增强与完善: 基于 ANP 对 AP2 协议进行了完善,包括支持中国支付基础设施(如支付宝、微信的二维码支付)、增加履约凭证(Fulfillment Receipt)、以及完善时间戳验证等。

  • ChatANP 演示: 开发了 ChatANP(chatanp.cc)聊天机器人,演示了其访问智能体网络、协作完成酒店预订任务的能力。

  • 智能体商务(Agent Commerce): 提出了比 AI 电商更原生、更彻底的智能体商务概念,强调智能体自主完成从需求发现到售后处理的整个交易闭环。

  • 解决核心挑战: AP2 协议通过 CartMandate(购物车授权)和 PaymentMandate(支付授权)等凭证,形成信任链条,解决人与智能体、智能体与智能体之间的信任问题。


ANP/AP2 的实现已完成并开源。未来计划支持 x402 协议(基于 HTTP 402 状态码的即时微支付),并探索「人不在场」场景(Intent Mandate)、隐私增强(SD-JWT)及数字人民币等支付方式。


ANP/AP2 规范文档:

https://github.com/agent-network-protocol/AgentNetworkProtocol


官方网站:

https://ap2-protocol.org/


(@ANP 开源技术 Community)





02


有亮点的产品




1、谷歌官宣 12 月 9 日举行 Android XR 特别发布会


谷歌官宣,将于太平洋时间 12 月 8 日上午 10 点(北京时间 12 月 9 日凌晨 2 点)举行 Android XR 特别发布会。


根据发布会直播简介,收看者将了解有关 XR 的所有内容,包括眼镜、头戴式设备以及所有中间设备。在 Gemini 的陪伴下,用户将能够拥有更加对话式、情境化且有帮助的体验。


三星已在今年 10 月推出了其首款 XR 头显设备——Galaxy XR,这也是首款搭载 Android XR 操作系统的设备,该平台由三星、谷歌和高通联合打造,设备搭载高通骁龙 XR2+ Gen 2 芯片,配备 16GB 内存和 256GB 存储空间。


此外,三星还宣布了其即将推出 AI 眼镜的计划,正在与谷歌以及知名时尚眼镜品牌合作开发此类可穿戴设备。爆料称这款眼镜将配备全视线镜片(即光致变色镜片),能根据环境光线强度自动变暗或恢复透明,还内置摄像头并支持 Wi-Fi 与蓝牙连接。


预约直播:

https://www.youtube.com/live/a3-OJxxW810


(@IT 之家)



2、Anthropic 推出「Anthropic Interviewer」AI 工具,大规模洞察专业人士对 AI 的看法


Anthropic 公司发布了「Anthropic Interviewer」,一款基于 Claude 的 AI 工具,旨在自动化执行大规模访谈。该工具通过三个阶段——规划、访谈和分析——生成可供人类研究人员分析的数据,解决了传统访谈在规模和成本上的限制。


  • 三阶段自动化流程:

    • 规划 (Planning): AI 基于研究目标生成灵活的访谈大纲(rubric)和对话流程。人类研究员与 AI 协作进行最终审阅和编辑。

    • 访谈 (Interviewing): AI 在 Claude.ai 界面上进行实时、自适应的访谈,时长约 10-15 分钟,收集定性数据。

    • 分析 (Analysis): AI 分析访谈记录,提炼关键主题和回答研究问题,并提供佐证引言。同时,独立的 AI 分析工具用于识别和量化跨参与者的普遍主题。

  • 高度可扩展性: 该工具能够以远超传统方法的高效率和低成本,进行数百至数千次的访谈。

  • 方法学创新: 标志着对研究方法的一次根本性转变,使得对 AI 社会影响等复杂问题的研究能够以全新规模进行。

  • 数据公开与验证: Anthropic 公开此次测试的 1250 份访谈数据(经同意),供研究界探索。访谈者对该工具的满意度高达 97.6%,认为其能有效捕捉想法(96.96%),并推荐该格式(99.12%)。

  • AI 辅助研究: 整合了 AI 进行数据收集和初步分析,使人类研究者能更专注于深度解读和策略制定。


「Anthropic Interviewer」已完成首次测试并投入使用。Anthropic 正持续运用该工具进行研究,并已公开研究方法和部分初步发现。


相关链接:

https://claude.ai/interviewer


(@Anthropic Research)



3、葡萄牙足球巨星 C 罗投资人工智能初创公司 Perplexity


足球巨星克里斯蒂亚诺·罗纳尔多(Cristiano Ronaldo)宣布投资 Perplexity AI,这家人工智能初创公司拥有包括 Comet 搜索引擎在内的产品,估值达 200 亿美元。

罗纳尔多周四分享了这一消息,强调好奇心对于取得成功的重要性。「好奇心是成就伟大的必要条件。当你每天不断提出新问题时,你就会赢。这就是为什么我自豪地宣布我对 Perplexity 的投资,」这位足球传奇在 X 平台上发文表示。


这次合作包括一个名为「Perplexity x CR7」的专属登陆页面,展示了罗纳尔多的职业生涯故事。这位足球偶像将这次合作描述为他们共同努力「激励每个人提出更有雄心的问题」的「仅仅是开始」。


Perplexity 成立于 2022 年,在 9 月份获得 2 亿美元融资后,估值达到 200 亿美元。罗纳尔多与这家 AI 搜索平台的关系始于用户身份,后来成为投资者。10 月份,他曾表示 Perplexity 帮助他撰写了 Prestige Globe Award 获奖感言。


凭借罗纳尔多在各大社交媒体平台上超过 10 亿的粉丝,他的投资和合作可能会显著扩大 Perplexity 的用户群。这位足球明星在公告中指出,「Perplexity 正在为全球的好奇心提供动力」。


https://www.perplexity.ai/ronaldo


(@investing.com、@Cristiano @X)






03


有态度的观点 




1、豆包手机工程机被炒至近万元,行业评价两极分化


据新浪财经报道,「豆包手机助手」首批工程机在官方渠道售罄后迅速在二级市场被炒高,闲鱼等平台上部分未拆封机型报价已达 7999 – 9999 元,相较官方 3499 元定价溢价超过一倍。


与此同时,昨日社交媒体出现对于「豆包手机」的分化评价。


魅族科技公开表示「期待有机会深入合作」,认为豆包手机拓展了 AI 手机的想象空间,并强调 Flyme AIOS 2 同样以系统级自动化为目标。


荣耀首席影像工程师罗巍则直言软件公司做手机难度极大,若坚持可能「三世而亡」,否则「一代死」。但荣耀产品线高管方飞则认为豆包助手的通用场景自动执行路径与荣耀的方向一致,期待生态共建。


而据此前报道,部分用户在使用助手执行微信相关操作时出现被动下线或登录异常,微信方面回复称暂勿在工程机上通过助手操作敏感环节,相关问题正在核实;字节跳动方面则强调,权限清单与白皮书已公开,执行过程需用户授权且可中断。

对此,罗永浩在微博发文称,技术革命是谁都拦不住的,AI 助手一定会遍地开花。



( @APPSO)






加入我们的 Voice Agent 社区


RTE 开发者社区持续关注 Voice Agent 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣,也期待和更多开发者交流(每个月都有线上/线下 meetup,以及学习笔记分享),欢迎加入我们的社区微信群,一同探索人和 AI 的实时互动新范式。


加入我们:加微信 Creators2022,备注身份和来意(公司/项目+职位+加群),备注完整者优先加群。


图片






更多 Voice Agent 学习笔记:

Pion 创始人聊 WebRTC、AI、SIP 和 QUIC I Voice Agent 学习笔记

2025 年语音 AI 趋势十大洞察丨Voice Agent 学习笔记

硅谷顶级 VC 如何看语音 AI?Greylock 合伙人揭秘 Voice Agent 构建的三层策略

AI 客服还不够聪明,但已超过月薪五千的人类丨RTE Meetup 回顾


引爆 AI 会议工具潮流,Granola 打造 2.5 亿美元估值产品的秘密丨Voice Agent 学习笔记

活动回顾丨主动式语音 AI:全双工加持,让 AI 既会抢答也懂适时沉默丨RTE Meetup

GPT-4o 之后,Voice 从 Assistant 到 Agent,新机会藏在哪些场景里?|Voice Agent 学习笔记

对话 Wispr Flow 创始人 Tanay:语音输入,如何创造极致的 Voice AI 产品体验

Notion 创始人 Ivan Zhao:传统软件开发是造桥,AI 开发更像酿酒,提供环境让 AI 自行发展

ElevenLabs 语音智能体提示词指南——解锁 AI 语音交互的「灵魂秘籍」丨 Voice Agent 学习笔记






写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。



【声明】内容源于网络
0
0
RTE开发者社区
RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。
内容 1122
粉丝 0
RTE开发者社区 RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。
总阅读1.1k
粉丝0
内容1.1k