雷朋 Meta 眼镜视觉识别功能开放测试；Ultravox 新版语音模型：语音理解超 GPT-4o 和 Gemini

RTE开发者社区

2025-02-12

导读：本期关键词：Ultravox、Peeches、Meta 眼镜

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@qqq，@鲍勃

有话题的技术

1、Ultravox v0.5 发布：端到端语音模型，语音理解超越 GPT-4o 和

Gemini 1.5 Flash

Ultravox v0.5 开源语音语言模型在去年发布 v0.4.1 的基础上，v0.5 大幅提升了语音理解能力、多语言支持以及在真实场景中的适应能力。该版本在语音理解基准测试中超越了 OpenAI 的 GPT-4o Realtime 和 Google 的 Gemini 1.5 Flash，同时保留了开源模型的灵活性和透明性。模型权重现已发布，可通过 Hugging Face 获取。

技术亮点：

CoVoST-2 & Big Bench Audio 领先： 在多语言语音翻译和基于语音的推理任务中表现卓越。
转录性能大幅提升： 在 LibriSpeech、CommonVoice 和 Fleurs 的 82 个评估集上，单词错误率（WER）降低 60%。
语音问答能力增强： 在命名实体识别等任务中，性能提升 18%。
广泛的多语言支持： 支持 42 种语言，并具备动态语言切换能力。
端到端处理： 直接处理原始语音输入，避免了传统级联系统（ASR → LLM → TTS）的误差累积，在嘈杂环境或低质量麦克风条件下表现更佳。

Ultravox Realtime 服务已上线： 立即构建和扩展实时语音 AI 应用。定价： $0.05/分钟 ( 新用户 30 分钟免费试用) 。（@ultravox.ai）

2、字节跳动突破高分辨率视频生成瓶颈，FlashVideo 引领高效生成新时代

近年来，文本到视频（T2V）生成技术取得了显著进展，尤其是扩散模型（Diffusion Models）的应用。然而，高质量的视频生成依然面临以下挑战：

高计算成本：生成高分辨率视频需要大模型参数和大量函数评估（NFEs），导致计算资源消耗巨大。
细节与运动一致性：在保持内容与运动对齐的同时，生成丰富的视觉细节是一个难题。
实时性差：现有方法生成 1080p 视频可能需要数百秒甚至上千秒，用户体验受限。

为了解决这些问题，香港大学、香港中文大学与字节跳动联合团队提出了一种全新的两阶段框架——FlashVideo，在保证高质量生成的同时，大幅提升了计算效率。

核心亮点：

两阶段设计：通过将生成任务分为「低分辨率优先」和「高分辨率增强」，有效平衡了生成质量和计算效率。
流匹配技术：创新性地使用流匹配（Flow Matching）技术，仅需 4 步即可完成高分辨率细节生成，相比传统方法提速显著。
用户友好：支持快速预览功能，用户可以在 30 秒内获得初步结果，再决定是否继续生成高分辨率视频。（@Safphere）

有亮点的产品

1、雷朋 Meta 眼镜视觉识别功能开放测试

海外博主实测 Meta AI 的最新功能，Live AI Video。当博主指着一个东西说「告诉我这是什么」时，Live AI Video 能够马上准确回答出这是一个「棕色皮包」；当博主问「墙上写的是什么」时，它能识别墙上写的文字并回答墙上写的是「嗨爸爸，我爱你」。除此之外，说出画里有什么和识别台灯的颜色等都不在话下。(@XR-Vision)

2、Resend 推出 new.email：用自然语言构建电子邮件的新方式

Resend 团队今日宣布推出 new.email，这是一个全新的电子邮件构建平台。它允许用户使用自然语言创建美观、响应式且跨平台的电子邮件。

核心亮点：

自然语言生成：用户无需编写代码，只需使用自然语言描述，即可生成电子邮件模板。
面向所有人：不仅仅是开发人员，市场营销、产品或设计团队也能轻松使用。
一致性与美观：确保电子邮件在外观和风格上与产品保持一致，提升品牌形象。
响应式和跨平台：自动适配不同设备和邮件客户端，提供最佳阅读体验。
基于 LLM：利用大型语言模型技术，结合 Resend 在邮件发送方面的经验，实现智能化生成。
高质量组件库：训练 LLM 生成基于包含 54 个高质量电子邮件组件的库。

用户现在可以加入等待名单，以获得早期访问权限。https://new.email/

(@Resend@X)

3、曝国行苹果 AI 敲定与阿里合作， DeepSeek 曾被考虑

据 The Information 报道，苹果公司已经与阿里巴巴达成合作，为国行版的 iPhone 用户提供 AI 功能，消息来源为一位知情人士。

据悉，苹果与阿里巴巴共同开发的国行 AI 功能已提交给国内相关部门审核。两位对该项目有直接了解的人士称，苹果在 2023 年开始测试来自中国开发者的不同 AI 模型，并一度选择百度作为主要合作对象，但由于百度在为苹果智能开发模型方面的进展未达到美国公司的标准，因此该合作后来被取消。苹果最近几个月开始考虑其他选项，评估腾讯、字节跳动、阿里巴巴以及 Deepseek 开发的模型。报道还提到，苹果最终放弃了最近呼声很高的 DeepSeek ，因为 DeepSeek 团队缺乏支持像苹果这样的大客户所需的人力和经验。

日前，苹果向开发者发送了关于「利用苹果智能的力量」开发者活动的相关邮件。值得关注的是，本次活动将于 3 月 25 日 10:00 至 12:00 在上海举行，活动主题将围绕苹果智能和机器学习两个方面。而这一举动，也暗示在中国大陆的苹果智能 AI 功能或将上线。(@APPSO)

有态度的观点

1、百川智能 CEO：AGI 的尽头是生命科学

近日，百川智能创始人兼 CEO 王小川接受晚点对话的采访，表示「不是文本创作、不是物理模型，AGI 的尽头是生命科学」。采访中，王小川提到，之所以坚定了公司方向聚焦医疗，是因为大模型是造人的，而医生是人类职业中最复杂的之一，所以它可以成为一个标尺。并且他认为，大模型能造出医生时，就是达到了 AGI。同时，王小川对 DeepSeek 的「火爆全球」表示振奋，一方面他认为 DeepSeek 改变了行业格局，中国离实现 AGI 和应用爆发更近，另一方面，他觉得 DeepSeek 的出圈让更多人体验到了 AI，教育了整个行业。在谈及训练医疗大模型费用时，王小川认为医疗模型有更高的价值，它关系生命健康，因此不能按 token 来算钱。王小川还预测了未来的技术发展趋势。AI 通过学会使用工具，一步步学习制造工具，最后形成循环，AI 写完代码自己运行，AI 自己造工具自己用。(@APPSO)