
01
有话题的技术
1、阿里深夜发布重磅开源!暴击 Sora 登顶榜首,消费级显卡就能跑
基于 DiT 架构和 Flow Matching 范式
研发高效因果 3D VAE 和可扩展预训练策略
实现特征缓存机制,支持无限长 1080P 视频编解码
-
通过空间降采样压缩,减少 29% 内存占用
实验结果显示,在运动质量、视觉质量、风格和多目标等 14 个主要维度和 26 个子维度测试中,万相表现出色,并且斩获 5 项第一。
开源地址:
GitHub: https://github.com/Wan-Video
HuggingFace: https://huggingface.co/Wan-AI
2、DeepSeek-R2 曝 5 月前上线!第三弹 DeepGEMM 300 行代码暴击专家优化内核
-
在 Hopper GPU 上实现高达 1350+ FP8 TFLOPS 的算力 -
极轻量级依赖,代码清晰易懂 -
完全即时编译,即用即跑 -
核心逻辑仅约 300 行代码,却在大多数矩阵规模下超越专家级优化内核 -
同时支持密集布局和两种 MoE 布局
总之,这个 DeepGEMM 听起来简直是数学界的超级英雄,比飞快的计算器还要快。
在 DeepSeek-R2 中,将实现更好的编码,还能用英语以外的语言进行推理。
3、新突破!微软开源多模态 AI Agent
https://huggingface.co/microsoft/Magma-8B
github:
https://github.com/microsoft/Magma
02
有亮点的产品
1、Perplexity 宣布进军 AI 浏览器
近日,AI 搜索引擎 Perplexity 宣布将要推出 AI 浏览器,命名为「comet」。据 Perplexity 官方介绍,comet 将基于 Agentic(智能体)打造,暂无其他更多细节透露。目前,comet 已开放报名预约。
2、医疗 AI 助手 OpenEvidence 获 7500 万美元,估值 10 亿美元
CNBC 消息,医疗 AI 初创公司 OpenEvidence,从红杉资本获得了新一轮 7500 万美元的融资,估值达到 10 亿美元。
3、微软 Copilot 已免费开放
智东西 2 月 26 日报道,今日,微软宣布面向所有 Copilot 用户推出免费、无限制访问的 Voice(语音) 和 Think Deeper(深度思考)功能,由 OpenAI 的 o1 模型提供支持。
4、商汤小浣熊家族全面升级:多模态融合
升级后的商汤小浣熊家族实现了多模态能力的全面提升,能够高效整合信息和分析数据。
办公小浣熊通过自动化工具支持,轻松应对复杂任务,并提升团队协作效率。
-
代码小浣熊 2.0 实现了多维度数据融合,增强了编程效率,支持实时检索技术文档。(@AIbase 基地)
5、Hugging Face 发布 Python WebRTC 开源库 FastRTC,方便构建实时音频视频应用
(视频来源:Freddy A Boulton@X)
近期语音模型领域发展迅速:OpenAI 和 Google 发布了实时多模态 API;Kyutai、Alibaba 和 Fixie ai 推出了开源音频 LLM;ElevenLabs 获得了 1.8 亿美元 C 轮融资
尽管模型和资金丰富,但在 Python 中构建实时音频/视频应用仍然困难:
机器学习工程师可能缺乏 WebRTC 等相关技术经验
-
甚至代码辅助工具也难以为实时应用编写有效代码
FastRTC 核心功能
自动语音检测和轮流发言功能
内置 WebRTC 支持的 Gradio UI
免费电话号码服务 (fastphone)
支持 WebRTC 和 Websocket
可自定义并与任何 FastAPI 应用集成
-
提供 STT、TTS 等语音实用工具(@meng shao@X)
03
有态度的观点
1、OpenAI 早期员工:DeepSeek 并未改变 AI 技术的叙事

加入我们的 Voice Agent 社区
RTE 开发者社区持续关注 Voice Agent 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣,也期待和更多开发者交流(每个月都有线上/线下 meetup,以及学习笔记分享),欢迎加入我们的社区微信群,一同探索人和 AI 的实时互动新范式。
加入我们:加微信 Creators2022,备注身份和来意(公司/项目+职位+加群),备注完整者优先加群。
更多 Voice Agent 学习笔记:
多模态 AI 怎么玩?这里有 18 个脑洞
AI 重塑宗教体验,语音 Agent 能否成为突破点?
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)
对话式 AI 硬件开发者都关心什么?低延迟语音、视觉理解、Always-on、端侧智能、低功耗……丨 RTE Meetup 回顾
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势
语音即入口:AI 语音交互如何重塑下一代智能应用
写在最后:

