
01
有话题的技术
1、PD:像 Sora 一样,用物理模拟方式生成视频
2、微软推出 OmniParser V2.0:将大语言模型转化为 GUI 交互智能体
3、阿里升级 AI 人像视频生成,表情动作直逼专业水准
4、马斯克旗下 Grok3 大模型即将发布,称其为最聪明人工智能
5、斯坦福大学团队使用多智能体强化学习训练社交推理语言模型
6、「阶跃星辰」开源「文生视频」模型 Step-Video-T2V
深度压缩视频 VAE(16×16 空间压缩 + 8× 时间压缩),降低训练/推理成本;
3D 全注意力 DiT 架构,适配动态分辨率;
-
视频偏好优化(DPO),通过人类反馈提升流畅度与真实感。支持中英文输入,提供基础版(50 步生成)和 Turbo 版(15 步蒸馏加速),实测生成 204 帧视频需 4 块 80GB GPU(12 分钟)。
02
有亮点的产品
1、DeepSeek 满血版「火」到微信,国民级应用加持,AI 搜索要变天?
2、字节跳动 AI 中文 IDE「Trae」:已支持 Windows 系统,内置 GPT-4o 免费使用
3、学而思 xDeepSeek,首发超级学习应用「随时问」
首先,超过 2.5 亿分钟自研讲解视频。
第二,超高准确率的「九章识题」技术。
-
第三,智能分级适配的「九章答题」能力。(@成都商报教育)
4、百川智能联合北京儿童医院推出「AI 儿科医生」,正式投入临床应用
03
有态度的观点
1、梁汝波:重提「务实的浪漫」,追求 「智能」 上限
追求 「智能」 上限。相比追求某个具体产品——比如豆包——的 DAU,把智能本身作为最重要的目标可以激发更多尝试、不忽略关键技术节点。
探索新的交互。「新的交互应该是会更可穿戴、更便携、更自然的。」去年上线的 Ola Friend 耳机只是初步尝试。
-
加强规模效应。这是指 AI 产品应该越多人用越好用,「现在豆包上这个特点还不明确。」
加入我们的 Voice Agent 社区
RTE 开发者社区持续关注 Voice Agent 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣,也期待和更多开发者交流(每个月都有线上/线下 meetup,以及学习笔记分享),欢迎加入我们的社区微信群,一同探索人和 AI 的实时互动新范式。
加入我们:加微信 Creators2022,备注身份和来意(公司/项目+职位+加群),备注完整者优先加群。
报名丨Computer use&Voice Agent :使用 TEN 搭建你的 Mac Assistant
多模态 AI 怎么玩?这里有 18 个脑洞
AI 重塑宗教体验,语音 Agent 能否成为突破点?
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)
对话式 AI 硬件开发者都关心什么?低延迟语音、视觉理解、Always-on、端侧智能、低功耗……丨 RTE Meetup 回顾
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势
语音即入口:AI 语音交互如何重塑下一代智能应用
写在最后:

