
01
有话题的技术
1、字节跳动推出 OmniHuman:从单张照片生成逼真全身动态视频
字节跳动的研究团队近日开发出一款名为 OmniHuman 的人工智能系统,能够将单张照片转化为逼真的视频,展示人物的讲话、歌唱以及自然的动作。
2、阿里云 Qwen2.5-1M 开源发布:100 万上下文长度模型登场
Qwen2.5-1M 的核心亮点在于其原生支持百万 Token 的超长上下文处理能力。这使得模型能够轻松应对书籍、长篇报告、法律文件等超长文档,无需进行繁琐的分割处理。同时,该模型还支持更长时间、更深入的对话,能够记住更长的对话历史,实现更连贯、更自然的交互体验。此外,Qwen2.5-1M 在理解复杂任务,如代码理解、复杂推理、多轮对话等方面也展现出更强大的能力。
02
有亮点的产品
1、PlayAI 发布 TTS 新模型 Dialog 1.0,三方测试多方面超 ElevenLabs
-
语音质量: 在第三方测试中,PlayAI Dialog 在语音流畅度和情感连贯性方面优于 ElevenLabs v2.5 Turbo (10:1) 和 ElevenLabs Multilingual v2.0 (3:1)。测试者尤其赞赏其准确的表现力和节奏。
-
低延迟: 与 ElevenLabs v2.5 Turbo 类似,PlayAI Dialog 具有较低的首次音频时间(TTFA),适合低延迟应用,如语音代理、呼叫中心、游戏和娱乐。

-
多语言支持: 除英语外,支持中文、法语、德语、印地语、日语、韩语、葡萄牙语和乌尔都语。另有 23 种语言处于实验阶段。
2、谁还没发现微信好友里的「卧底 AI」:你以为它只会做红包封面?
一个年过完,许多人的微信里都多了一个好友。
只需输入简单的主题词,比如「天天开心」,它便能自动生成精美的绘图,并搭配由关键词组成的祝福语等,制作成独特的红包封面。
在角色设定上,对比一些智能客服的刻板印象,「元宝红包封面助手」很有人味儿。
3、Martin AI:19 岁华人辍学打造对话式 AI 助手,融资 200 万美元
19 岁华人辍学创业,拿下 200 万美元融资,致力于打造新型对话式 AI 助手。Dawson Chen 和 Ethan Hou 分别从耶鲁大学和伯克利大学退学,共同创办了 Martin AI。
03
有态度的观点
1、郭明錤:DeepSeek 爆红加速 AI 模型「设备端化」趋势
近日,分析师郭明錤发文表示,DeepSeek-R1 发布后,加速了 AI 模型「设备端化」的趋势。郭明錤提到,API/Token 价格显著下滑,有利于 AI 软件/服务与设备端 AI,加速 AI 应用多元化。其中 DeepSeek-R1 采取了激进的定价策略,其 API/token 定价最低不到 OpenAI-o1 的 1/100。郭明錤预测,此竞争压力可能将推动 AI 使用成本下滑,并且因 AI 产业在中国市场竞争激烈,将有其他中国厂商推出性能优异且定价更激进的 LLM。
2、谷歌前 CEO:DeepSeek 崛起标志着全球 AI 竞赛新阶段
04
有看点的活动
1、ElevenLabs x a16z Hackathon,全球六个城市+线上参与
ElevenLabs 和 a16z 正在举办一场以 AI 代理为主题的全球黑客马拉松,将在全球范围内同步举办 7 场大型黑客马拉松,汇聚全球最优秀的开发者、创新者、设计师和 AI 工程师。
北京时间 2 月 22 日星期六下午 6:00 - 2 月 24 日星期一上午 10:00
加入我们的 Voice Agent 社区
RTE 开发者社区持续关注 Voice Agent 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣,也期待和更多开发者交流(每个月都有线上/线下 meetup,以及学习笔记分享),欢迎加入我们的社区微信群,一同探索人和 AI 的实时互动新范式。
加入我们:加微信 Creators2022,备注身份和来意(公司/项目+职位+加群),备注完整者优先加群。
对话式 AI 硬件开发者都关心什么?低延迟语音、视觉理解、Always-on、端侧智能、低功耗……丨 RTE Meetup 回顾
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势
语音即入口:AI 语音交互如何重塑下一代智能应用
Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……
帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记
写在最后:

