01
有话题的技术
1、阿里通义万相开源业内首个「首尾帧生视频模型」 Wan2.1-FLF2V-14B
(视频来源:GitHub)
昨晚,阿里通义宣布开源业内首个「首尾帧生视频模型」—— Wan2.1-FLF2V-14B,只需要提供两张照片作为首帧和尾帧,模型便能自动生成一段丝滑流畅的高清视频。据了解,阿里通义发布的 Wan2.1 系列模型采用了先进的 DiT 架构,其中:
模型的 Transformer 部分基于主流的视频 DiT 结构,通过 Full Attention 机制精准捕捉长时程的时空依赖关系,确保了生成视频在时间与空间上的高度一致性;
本次发布的首尾帧生视频模型在基础架构模型上,引入了额外的条件控制分支,用户输入的首帧和尾帧作为控制条件,通过这一分支实现了流畅且精准的首尾帧变换。另外模型的训练分为三个阶段,逐步对能力进行提升。
目前,「首尾帧生视频模型」已经上线通义万相官网并可直接免费体验,或在 Github、Hugging Face、魔搭社区下载模型进行本地部署。(@APPSO)
2、Google 推出 Gemini 2.5 Flash 预览版,推理能力较大升级
(视频来源:Developers Digest@YouTube)
4 月 18 日凌晨,Google 正式推出 Gemini 2.5 Flash 预览版大模型,基于 Gemini 2.0 Flash 打造,其在推理能力方面进行了较大升级,同时保持了速度和成本的优势。
据 Gemini 产品经理 Tulsee Doshi 表示,Gemini 2.5 Flash 与 2.5 Pro 一样,支持动态思考:根据输入的复杂程度自动调整生成的工作量。在 2.5 Flash 上,开发者可以进一步控制模型思考。
2.5 Flash 预览版在 LMArena 测试中排名第二,仅次于 2.5 Pro;而在部分测试基准中,2.5 Flash 在保持低低成本的同时,拥有媲美 DeepSeek-R1、Claude Sonnet 3.7 等模型的性能。
目前,Gemini 2.5 Flash 预览版现已在 Google AI Studio 和 Vertex AI 的 Gemini API 中上线。(@APPSO)
3、字节开源多模态智能体 UI-TARS-1.5,具备游戏长时推理和开放空间交互能力
(视频来源:UI-TARS官网)
4 月 17 日,字节跳动发布并开源 UI-TARS-1.5,这是一款基于视觉-语言模型构建的开源多模态智能体,能够在虚拟世界中高效执行各类任务。目前,UI-TARS-1.5 已在 7 个典型的 GUI 图形用户界面评测基准中取得 SOTA 表现,并首次展现了其在游戏中的长时推理能力和在开放空间中的交互能力。
UI-TARS-1.5 基于此前的原生智能体方案 UI-TARS,通过强化学习进一步增强了模型的高阶推理能力,使模型能够在「行动」前先进行「思考」。对于推理能力的优化,显著提升了模型在面对未知环境和任务时的泛化能力,这使得 UI-TARS-1.5 在多项主流评测基准上较此前领域最优模型取得了更好表现。(@豆包大模型团队)
4、Hume 推出 Octave TTS即时模式,响应时间能够压缩至 250 毫秒以内
来自 Hume 的 Octave TTS 现已实现极速响应,隆重推出 Octave 即时模式。
该模型拥有目前市场上最高品质的文本转语音技术,其响应时间能够压缩至 250 毫秒以内。
同时完整保持原有的音色细腻度、情感表现力和声音个性特征。(@Hume@X)
02
有亮点的产品
1、ServiceAgent 智能应答系统:优化家政服务行业客户沟通体验
ServiceAgent 是一款专为家政服务企业打造的呼叫应答智能体。它基于行业特定数据进行训练,能够通过对话预约、处理客户咨询,并全天候捕捉每一条潜在商机,以帮助众多家政服务企业实现服务团队人力解放,使其能够将更多精力投入到提升客户服务质量上。(@Product Hunt)
2、OpenPhone 发布客服语音智能体 Sona:无需复杂集成,高度自定义
OpenPhone 发布了一款客服语音智能体产品 Sona,专为提升企业通信效率而设计。
它能够全天候响应来电,自动捕捉潜在客户信息、解答常见问题,并完整记录通话数据,帮助团队快速高效地跟进。
Sona 支持高度自定义——可以自主控制其介入时机和协助方式。企业可根据需求灵活设置其工作流程,且无需复杂集成,简单配置即可快速投入使用。
尤其适合依赖客户咨询的服务型企业、人员有限的中小团队,以及注重专业形象与响应速度的企业。(@OpenPhone@X)
03
有态度的观点
1、OpenAI 研究员姚顺雨:AI 将由解决问题转为定义问题
现任 OpenAI 研究院的姚顺雨发布博文,探讨了其对 AI 未来的发展预测。
其表示,几十年来 AI 主要致力于开发新的训练方法和模型,取得了显著成就,而这些成就都源于基础性创新,例如搜索、深度强化学习(Deep RL)和推理能力。而如今,深度强化学习终于开始泛化,AI 为人类赋能的局面也得到了变化。姚顺雨认为,随着强化学习的突破,AI 开始解决多样化的任务,如软件工程、创意写作和 IMO 级别的数学问题。
通过语言和推理的引入,AI 能够跨领域泛化任务,解决复杂问题。姚顺雨还提到,AI 的下半场将由解决问题转向定义问题,评估方法的创新将成为关键。此外,姚顺雨还表示,传统的评估方法已难以应对复杂的现实需求,AI 需要具备长时记忆和适应能力。他强调,新的评估方式应着眼于实际应用,推动 AI 产品的效用和商业价值,为行业带来更大的创新和影响。(@APPSO)
加入我们的 Voice Agent 社区
RTE 开发者社区持续关注 Voice Agent 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣,也期待和更多开发者交流(每个月都有线上/线下 meetup,以及学习笔记分享),欢迎加入我们的社区微信群,一同探索人和 AI 的实时互动新范式。
加入我们:加微信 Creators2022,备注身份和来意(公司/项目+职位+加群),备注完整者优先加群。
a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记
a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记
ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记
端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
多模态 AI 怎么玩?这里有 18 个脑洞
AI 重塑宗教体验,语音 Agent 能否成为突破点?
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)
对话式 AI 硬件开发者都关心什么?低延迟语音、视觉理解、Always-on、端侧智能、低功耗……丨 RTE Meetup 回顾
写在最后:

