01
有话题的技术
1、腾讯混元「图生视频模型」正式发布并开源
(视频来源:三花 AI )
2、阿里发布开源模型 QwQ-32B,消费级显卡实现满血版性能
3、NotaGen 古典音乐生成模型
4、沉寂很久的 Mistral AI 推出号称世界最强 OCR
欧洲 AI 明星公司 Mistral AI 今日发布 Mistral OCR,一款号称「世界最佳文档理解 API」的全新产品。
顶尖的复杂文档理解能力: Mistral OCR 擅长理解复杂的文档元素,包括交错的图像、数学表达式、表格以及 LaTeX 等高级排版格式。这使得模型能够更深入地理解富文档,例如包含图表、图形、公式和图像的科学论文。
原生多语言和多模态支持: Mistral OCR 天生具备多语言和多模态处理能力,能够处理多种语言和不同类型的内容。
顶级的基准测试表现: Mistral OCR 在多项基准测试中都取得了领先地位,展现了其卓越的性能
同类产品中最快速度: Mistral OCR 的轻量化设计使其速度远超同类模型,单节点每分钟可处理高达 2000 页的文档。快速的处理能力确保了即使在高吞吐量环境下也能持续学习和改进。
「文档即提示」的结构化输出: Mistral OCR 创新性地引入了「文档即提示」的概念,用户可以使用文档作为提示,实现更强大、更精确的指令。它允许用户从文档中提取特定信息,并将其格式化为 JSON 等结构化输出。用户可以将这些结构化输出串联到下游函数调用和构建代理中。
选择性提供自托管部署: 对于有严格数据隐私要求的组织,Mistral OCR 提供自托管选项。这确保了敏感或机密信息在您自身的基础设施内保持安全,符合监管和安全标准。(@ AI 寒武纪)
02
有亮点的产品
1、Beats 联手 Sandy Liang 推出限量版 Solo 4 耳机
2、Captiwate:一款实现网站访客即时视频通话的销售工具
3、Pinch:一款提供实时语音翻译的跨语言视频会议平台
Pinch 是一个创新的虚拟会议平台,其核心价值在于实现无障碍的跨语言沟通。该产品主要面向需要进行国际交流的企业、团队和个人用户。Pinch 解决了传统视频会议中语言障碍的痛点,为用户提供了一个能够实时翻译并让参与者听起来像母语使用者的解决方案。在功能方面,产品的亮点包括支持超过 30 种语言的实时语音翻译,以及沉浸式的会议体验。Pinch 的差异化优势在于其能够让用户在视频会议中以母语水平展现自己,大大提高了跨语言沟通的效率和自然度。
03
有态度的观点
1、Anthropic CPO:AI 将进化为「智能引导者」
加入我们的 Voice Agent 社区
RTE 开发者社区持续关注 Voice Agent 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣,也期待和更多开发者交流(每个月都有线上/线下 meetup,以及学习笔记分享),欢迎加入我们的社区微信群,一同探索人和 AI 的实时互动新范式。
加入我们:加微信 Creators2022,备注身份和来意(公司/项目+职位+加群),备注完整者优先加群。
更多 Voice Agent 学习笔记:
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
多模态 AI 怎么玩?这里有 18 个脑洞
AI 重塑宗教体验,语音 Agent 能否成为突破点?
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)
对话式 AI 硬件开发者都关心什么?低延迟语音、视觉理解、Always-on、端侧智能、低功耗……丨 RTE Meetup 回顾
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势
语音即入口:AI 语音交互如何重塑下一代智能应用
写在最后:

