01
有话题的技术
1、OpenAI 官宣开源!奥特曼在线征集方案,OpenAI 真的要 Open 了
2、阶跃星辰联合吉利首次开源 Step 系列多模态大模型
3、马斯克发布 Grok-3,反击 DeepSeek、OpenAI
4、国内首个短剧创作大模型开源了,一个人就能拍短剧,单卡 80 秒出大片
影视化表情识别体系:11 种针对影视戏剧中的人物表情理解,如不屑、不耐烦、无助、厌恶等表情的理解;
人物空间位置感知:基于人体三维重建技术,实现对视频中多人的空间相对关系理解,助力模型生成影视级人物站位;
行为意图理解:构建超过 400 种行为语义单元,实现对人物行为的精准理解;
-
表演场景理解:实现人物 - 服装 - 场景剧情的关联分析。
开源地址:
技术报告:
02
有亮点的产品
1、YOTO 把儿童听书 APP 做成了音箱,一年卖出 1 亿美金
无屏设计:YOTO 音箱采用无屏设计,避免了屏幕对儿童视力的潜在伤害,同时培养孩子的专注力和想象力。
卡片系统:通过插入不同的内容卡片,孩子们可以轻松切换故事、音乐、教育内容等,操作简单直观。
丰富内容:YOTO 与多家知名 IP 合作,提供超过 1000 种有声读物,涵盖故事、音乐、广播、绘本等多种类型。
家长控制:配套的手机应用允许家长远程控制设备,设置播放时间和内容限制,确保儿童使用安全。
夜灯功能:YOTO Player 内置柔和的夜灯,可以帮助孩子安心入睡。
-
便携设计:YOTO Mini 采用小巧轻便的设计,方便外出携带,随时随地享受音频内容。(@白鲸出海)
2、DeepSeek 冲击之下月之暗面 Kimi 暂缓「烧钱」
3、深圳福田、广州上线「AI 公务员」 :部署 DeepSeek 大模型覆盖 240 个场景
4、秘塔科技推出 「先想后搜」 研究模式,引领 AI 搜索新趋势
5、腾讯元宝发布重大更新:混元与 DeepSeek 两大模型均支持深度思考
03
有态度的观点
1、Sam Altman:我们的使命是确保 AGI 惠及全人类
加入我们的 Voice Agent 社区
RTE 开发者社区持续关注 Voice Agent 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣,也期待和更多开发者交流(每个月都有线上/线下 meetup,以及学习笔记分享),欢迎加入我们的社区微信群,一同探索人和 AI 的实时互动新范式。
加入我们:加微信 Creators2022,备注身份和来意(公司/项目+职位+加群),备注完整者优先加群。
更多 Voice Agent 学习笔记:
报名丨Computer use&Voice Agent :使用 TEN 搭建你的 Mac Assistant
多模态 AI 怎么玩?这里有 18 个脑洞
AI 重塑宗教体验,语音 Agent 能否成为突破点?
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)
对话式 AI 硬件开发者都关心什么?低延迟语音、视觉理解、Always-on、端侧智能、低功耗……丨 RTE Meetup 回顾
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势
语音即入口:AI 语音交互如何重塑下一代智能应用
写在最后:

