01
有话题的技术
1、MiniMax 推全新图像生成模型 Image-01,使用成本仅为 1/10
2、阿里巴巴开源 ViDoRAG:视觉文档理解领域迎来突破
3、Stability AI 生成速度提高 30 倍,优化音频生成模型,在 Arm 芯片上运行
(视频来源:Stability AI )
02
有亮点的产品
1、微软发布医疗 AI 助手 Dragon Copilot
今天凌晨,微软发布了医疗界首个用于临床工作流程的 AI 助手 Microsoft Dragon Copilot。
2、口红试色拍给 AI 看?Gemini AI 逆天功能让手机秒变 24 小时在线私人助理
(视频来源:AI 今说)
更清楚地表达问题:有时候,我们遇到的问题很难用文字描述清楚,但通过视频和屏幕共享,Gemini 就能立刻明白你的意思,帮你解决问题。
更快地找到答案:Gemini 可以根据你提供的视频和屏幕内容,快速给出最准确的答案,节省你的时间。
更好的学习体验:在学习和工作中,屏幕共享功能可以让你获得更有针对性的建议,让学习和工作变得更轻松。(@算讯息)
03
有态度的观点
1、AMD 苏姿丰:AI 的未来是渗透到生活每一部分
04
Demo 分享
1、Voice+Visual Agent:语音对话与视觉互动元素结合
加入我们的 Voice Agent 社区
RTE 开发者社区持续关注 Voice Agent 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣,也期待和更多开发者交流(每个月都有线上/线下 meetup,以及学习笔记分享),欢迎加入我们的社区微信群,一同探索人和 AI 的实时互动新范式。
加入我们:加微信 Creators2022,备注身份和来意(公司/项目+职位+加群),备注完整者优先加群。
更多 Voice Agent 学习笔记:
多模态 AI 怎么玩?这里有 18 个脑洞
AI 重塑宗教体验,语音 Agent 能否成为突破点?
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)
对话式 AI 硬件开发者都关心什么?低延迟语音、视觉理解、Always-on、端侧智能、低功耗……丨 RTE Meetup 回顾
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势
语音即入口:AI 语音交互如何重塑下一代智能应用
写在最后:

