01
有话题的技术
1、Google 最新开源了一款用于设备端 AI 的嵌入模型:EmbeddingGemma,体积小、速度快、可离线跑
Google DeepMind 正式推出 EmbeddingGemma,3.08 亿参数,2K 上下文。基于 Gemma 3 架构,支持 100+种语言,量化后可在不到 200MB 的 RAM 上运行 256 token 的句子。在 EdgeTPU 上<15ms 出结果。已集成 sentence-transformers、llama.cpp、Ollama、LangChain、Weaviate 等常用工具,一条命令嵌入 RAG 或搜索应用。可以用于比如本地文件搜索、离线聊天机器人、离线 RAG 问答、函数调用分类等。支持针对特定领域、任务或语言进行微调。
技术亮点
参数规模与性能:EmbeddingGemma 仅含 3.08 亿参数,却在 Massive Text Embedding Benchmark (MTEB)上位居开放模型榜首,表演了小型模型的强大潜力。
多语言支持:模型经过训练,支持超过 100 种语言,覆盖全球主要语种,适用于多种跨语言场景。
设备端优化:设计初衷是为了设备端运行,外围小于 200MB 的高效 RAM,配合量化技术,确保在资源有限的设备上也能工作。
高效嵌入维度:通过 Matryoshka 技术,输出维度可从 768 调整至 128,平衡性能与资源消耗。
生态集成:EmbeddingGemma 已在 Hugging Face、LlamaIndex、LangChain 等平台上实现无缝集成,方便开发者快速上手。
发布计划
当前状态:EmbeddingGemma 现已开放,开发者可通过 Hugging Face 等平台获取模型权重,开始构建应用。
文档与指南:Google DeepMind 提供了详细的文档和推理、关注指南,帮助开发者快速集成。
社区支持:模型支持多种工具,如 transformers.js、MLX、llama.cpp 等,鼓励开发者探索设备端 AI 的新可能。
未来发展:团队计划进一步优化模型,扩展其在更多设备和场景中的应用,持续推动嵌入模型的创新。
(@Google DeepMind)
2、Hugging Face 开源 FinePDFs 与 FineVision,助推开源模型性能飞跃
Hugging Face 近期开源了两大重量级数据集:FinePDFs 与 FineVision。FinePDFs 是目前最大的公开 PDF 语料库,完全由 PDF 文件构建,包含约 3 万亿 tokens,覆盖 4.75 亿 份文档、1733 种语言,数据量 3.65 TB。
语料来自 105 个 CommonCrawl 快照(2013 夏—2025 年 2 月),经 datatrove 库去重、过滤与 PII 匿名化,采用 ODC-By 1.0 许可证。文档平均长度接近 HTML 数据集的两倍,长于 10 万字符的样本显著,可用于提升开源 LLM 的长上下文能力。数据集已按语言-脚本对划分,978 种语言超 100 万 tokens,66 种 语言超 10 亿 tokens。
FineVision 面向视觉-语言模型训练,整合 200 余个来源,含 1730 万张图像、2430 万样本、8890 万轮对话、95 亿回答 tokens,支持 GUI 导航、指向、计数等新能力。官方称在 10 项基准上带来 20% 以上提升,可显著增强开源 VLM 性能。数据已转为 Parquet,总量约 4.48 TB,支持流式加载。
相关链接:
https://huggingface.co/datasets/HuggingFaceFW/finepdfs
https://huggingface.co/datasets/HuggingFaceM4/FineVision
(@橘鸭 Juya)
02
有亮点的产品
1、Extra Thursday:一句话拯救邮箱,轻松语音安排日程
Extra Thursday 是一款语音驱动的 AI 助手,让你无需动手,只需用语音就能高效处理邮箱和日程任务。它可以语音整理收件箱、自动撰写邮件草稿、跟进重要邮件,让你以思考的速度完成工作,尤其适合开车、做饭、遛狗时使用。此外,它还兼顾日程规划与行政事务自动化,帮你清理收件箱并安排好每天的日程,让生产力大幅提升。
Extra Thursday 是一款专为高效专业人群打造的 AI 工具,简化邮箱任务流程,让你的工作真正解放双手。
产品亮点:
语音优先交互:一句话搞定邮件分类和回复,无需键盘或点击。
高效邮件处理:快速筛选重点邮件、起草回复、跟进对话,提高效率。
全天候日程协助:同步整理日程、提醒事项,支持日常规划。
Gmail 无缝整合:兼容 Gmail,随时随地处理邮件事务。
官网链接:
https://www.extrathursday.com/(@Extra Thursday)
2、Pickle 发布 Whisper 预告片:主动式桌面 AI,无感交互持续学习
Pickle 发布了新产品 Whisper 的预告视频。
创始人 Daniel 在 X 上介绍:「 桌面 AI,没有用户界面,无需提示,无需您开口。百分百主动,并能随着你的持续使用而不断学习和成长。」
在预告视频中,Whisper 演示了其独特的交互方式,例如能够主动为用户的头脑风暴提供创意点子,以及智能提醒用户发现代码中的潜在错误等。(@Pickle@X)
3、深圳银云推出全球首个开源 MCP 交易平台 XPack.AI,已获红杉资本等数千万融资
近日,深圳银云信息技术有限公司正式上线了全球首个开源 MCP 交易平台——XPack.AI。据了解,深圳银云已完成 Pre-A 轮及 A 轮融资,累计获得数千万元,投资方为红杉资本和国宏嘉信。
XPack.AI 的推出旨在解决目前 MCP 生态不繁荣、缺少利益动力的痛点。作为全球首个开源的 MCP 交易平台,它能帮助 AI Agent 找到所需服务数据,并为 MCP、SaaS 软件及 API 开发者提供变现和获客渠道。开发者通过开源版本,仅需 10 分钟就能搭建一个专属的 MCP 交易平台,并快速将现有 API 转换为可销售的 MCP 服务。
该公司创始人刘昊臻介绍,XPack.AI 是一个中立的全球化平台,可支持世界各地、各种语言的 MCP 服务入驻,与大厂更多作为 AI Agent 附属服务的定位形成差异化竞争。
据了解,XPack.AI 未来还将提供将任何网站和内容一键转换为 MCP 的服务,进一步丰富平台生态。公司今年的目标是:对接 100 家以上 AI Agent 产品,吸引超过 1 万家供应商,拥有超 10 万个第三方 MCP 独立站,并接入 50 多家主流 Agent 应用。(@硬氪)
3、Grok 更新:视频生成新增语音模式,PDF 阅读器功能提升
Grok Imagine 视频生成功能新增语音模式,用户可在生成视频中启用 speech mode 使人物开口说话,该功能尚处早期 beta 阶段,官方预告未来几周将对图像与视频生成进行更大升级。
Grok App 界面新增 Companions 标签页,入口位于主界面,具体用途尚未披露。Grok 网页端与 iOS App 同步上线 Text-to-Speech 按钮,用户点击即可朗读模型回复内容。
Grok 网页端 PDF 阅读器升级:支持高亮任意文本后点击 Explain 让模型即时解释,或点击 Quote 针对所选内容精准提问;同时新增对 PDF 内嵌图片的识别与查看能力。
相关链接:
https://x.com/cb_doge/status/1963986558731571711(@DogeDesigner)
03
有态度的观点
1、 吴恩达:不懂计算机原理,就不可能只靠「Vibe Code」变优秀
日前,斯坦福大学计算机科学系副教授吴恩达发布个人博客,对当前 AI 与编程的现状进行了分析,并分享了自己的一些个人看点。
吴恩达指出,市场上一方面存在着对理解 AI 的开发者的巨大且未被满足的需求,许多大型企业和初创公司都渴望招聘这类人才;但另一方面,新近毕业的计算机科学(CS)专业学生却面临着失业率上升的困境。他认为,这主要是因为大学课程的调整未能跟上生成式 AI 所带来的行业变革。在谈到他所认为的「AI 工程师」时,吴恩达强调了三项关键能力:
能够利用 AI 辅助来快速构建软件系统;
熟练运用提示工程(Prompting)、RAG 等 AI 模块来搭建应用;
具备快速原型设计和迭代的习惯。
对于市场上「AI 原生代」毕业生优于资深程序员的说法,吴恩达表达了更细致的看法。他承认,一个精通 AI 的新人确实可能胜过一个固守旧工作方式的资深开发者。但他强调,当今最顶尖的开发者,是那些将深厚的软件工程经验与前沿 AI 工具相结合的资深人士。
他进一步解释,尽管 AI 让许多过去的知识(如记忆大量语法)变得不再重要,但计算机科学的核心基础依然是基石。吴恩达认为,大概 70% 的 CS 基础知识与现代 AI 技能相结合,才能造就真正高效的开发者。
在他看来,不理解计算机工作原理,纯靠「感觉」是无法构建出伟大系统的。(@APPSO)
加入我们的 Voice Agent 社区
RTE 开发者社区持续关注 Voice Agent 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣,也期待和更多开发者交流(每个月都有线上/线下 meetup,以及学习笔记分享),欢迎加入我们的社区微信群,一同探索人和 AI 的实时互动新范式。
加入我们:加微信 Creators2022,备注身份和来意(公司/项目+职位+加群),备注完整者优先加群。
硅谷顶级 VC 如何看语音 AI?Greylock 合伙人揭秘 Voice Agent 构建的三层策略
AI 客服还不够聪明,但已超过月薪五千的人类丨RTE Meetup 回顾
引爆 AI 会议工具潮流,Granola 打造 2.5 亿美元估值产品的秘密丨Voice Agent 学习笔记
活动回顾丨主动式语音 AI:全双工加持,让 AI 既会抢答也懂适时沉默丨RTE Meetup
GPT-4o 之后,Voice 从 Assistant 到 Agent,新机会藏在哪些场景里?|Voice Agent 学习笔记
对话 Wispr Flow 创始人 Tanay:语音输入,如何创造极致的 Voice AI 产品体验
Notion 创始人 Ivan Zhao:传统软件开发是造桥,AI 开发更像酿酒,提供环境让 AI 自行发展
ElevenLabs 语音智能体提示词指南——解锁 AI 语音交互的「灵魂秘籍」丨 Voice Agent 学习笔记
11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨Voice Agent 学习笔记
实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨Voice Agent 学习笔记
写在最后:

