FeedbackStream：8 分钟创建 AI 面试智能体；Moshi 开源图像理解实时语音模型 MoshiVis 丨日报

RTE开发者社区

2025-03-24

导读：本期关键词：FeedbackStream、 MoshiVis 、宠物+AI 赛道

开发者朋友们大家好：

这里是「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@qqq、@鲍勃

有话题的技术

1、MoshiVis：具备图像理解能力的 AI 实时语音开源模型

（视频来源：kyutai@X）

MoshiVis = Moshi + 图像理解能力 + 实时语音互动能力。

它是个支持实时语音对话且具备视觉理解能力的开源视觉语音模型，由 Kyutai 团队基于其语音交互模型 Moshi 扩展而来。

简而言之，它可以「看图说话」，并能与人进行自然的语音对话，同时保持低延迟，适用于真实时间的交互场景。

主要功能

图像理解：输入一张图像后，模型能以语音方式描述其内容、回答相关问题。
实时语音交互：支持全程语音输入输出，保持低延迟（<80ms）。
上下文理解：可在一般聊天和图像相关对话之间自由切换，记住上下文。
多语音风格：支持模仿不同语调，如海盗口音、耳语等，增加交互趣味性。
内在思维流（Inner Monologue）：模拟模型「思考」的过程，用于训练更自然的语音生成。
多任务能力：可同时执行图像描述、视觉问答、OCR 等多种任务。(@ AIGitHub)

2、千问或将发布端到端多模态模型 Qwen2.5-Omni-7B

https://github.com/huggingface/transformers/pull/36752/commits/b4ff115375f02b59eb3e495c9dd3c1219e63ff50

来自@karminski-牙医：千问好像还要发一个 Qwen2.5-Omni-7B 模型，这是一个端到端的多模态模型，支持文本、图片、音频、视频作为输入，输出支持文本和语音。

看代码是使用了双路径生成，即文本和音频可以同时生成，内置了两种声音 Cherry （女声）， Ethan （男声），（另外语音是可以用参数控制的，return_audio=False 就不输出语音了）。

感觉小模型的发力从单纯的文本任务已经逐渐到现实感知与交互了。

（@karminski-牙医@X）

有亮点的产品

1、米家智能音频眼镜 2 今日上架

昨日，小米智能生态宣布，米家智能眼镜系列产品将在今日迎来更新。而在 3 月 22 日，小米众筹曾短暂上架了「MIJIA 智能音频眼镜 2」，页面显示标准价格为 1,199 元，众筹价 999 元。据目前消息显示，MIJIA 智能音频眼镜 2 主打纤细镜腿：最细处为 5mm，表面采用 NCVM 纳米真空镀膜工艺；重量为 27.6g 起，提供 5 款框型可选，其中深空钛款采用一体成型设计；配备琴钢超弹铰链，支持第二代快拆技术。

MIJIA 智能音频眼镜 2 配备 4 枚麦克风，支持「全能录音大师」（现场录音无需手机）；搭载定制非同轴钢壳电池，最长 12 小时续航，充电时间约 1 小时；声学方面，采用开放式声场 + 混响通道；支持双设备连接，语音唤醒设备端小爱同学。此外，小米智能生态还一同公布了米家窗帘系列产品，从官方公布的图片显示，产品仅巴掌大小，号称「小巧身材、动力强劲，掌控家中每一缕阳光」。( @APPSO)

2、宠物+AI 赛道：国产 AI 宠物摄像头出海，挑战海外市场巨头

在宠物经济蓬勃发展的当下，AI 宠物相机市场迎来了爆发式增长。Furbo 和 Petcube 等国际品牌在市场中占据领先地位。在这样的市场格局下，最近一家新的中国 AI 摄像头产品，毅然进军海外市场，试图在这片被巨头盘踞的领域中闯出一片天地。

Pickfun 1080P 高清宠物摄像头精准定位，致力于成为集高清监控、AI 智能分析、双向互动和家居安全监测于一体的多功能宠物摄像头。

它不仅为宠物主人提供实时了解宠物动态的窗口，还通过 AI 技术助力宠物健康管理，同时兼顾家庭安全监控，以满足现代养宠家庭多样化需求，试图在功能上与国际巨头一较高下。

值得注意的是，其支持双向语音功能，摄像头内置高灵敏度麦克风和高性能扬声器，宠物主人可通过手机 APP 与宠物实时对话，安抚宠物、引导其行为。在语音传输过程中，采用了降噪和回声消除技术，有效减少了环境噪音和回声的干扰，确保语音通话清晰流畅。

这一功能在国际品牌中已较为成熟，国产品牌 Pickfun 通过优化语音处理技术，减少延迟和噪音，在双向语音的流畅度和清晰度上不断改进，以提升海外用户与宠物互动的体验。

（@AIoT 未来智讯）

3、谷歌 Gemini Live：开启 AI 实时视频问答新时代

谷歌今日宣布其 AI 助手 Gemini Live 即日起向高级订阅用户开放实时视觉问答功能

该服务可通过手机摄像头即时解析现实场景，被《The Verge》称为「首个真正理解三维世界的移动 AI」。

早期体验视频显示，用户对着冰箱拍摄后，Gemini 不仅识别出剩余食材，还同步推荐了五道定制菜谱。

这项代号「Project Astra」的研发成果展现出惊人的环境感知能力。在泄露的小米 14 Ultra 测试视频中，开发者用摄像头扫描电脑屏幕时，Gemini Live 准确指出代码错误并给出调试建议。谷歌 CEO 桑达尔·皮查伊向 CNBC 证实：「我们的多模态模型现在能理解超过 400 种物体空间关系，响应速度比去年快 3 倍。」

据 Statista 2024 年 Q1 数据显示，谷歌助手以 34%市场份额领跑行业，但面临亚马逊 Alexa（21%）和苹果 Siri（18%）的激烈竞争。不同于亚马逊聚焦智能家居控制，Gemini Live 的突破在于打通移动场景——彭博社获取的内部文件显示，其图像解析准确率在实验室测试中达到 92%，远超行业平均 75%的水平。

科技论坛 Reddit 已有用户讨论实际应用可能。「当我用 Gemini 查看汽车仪表盘时，它居然能结合故障灯和里程数建议维修方案，」网友@CodeMaster 在讨论串中写道。Twitter 上的早期体验者@TechLover 则分享：「让孩子用这个功能完成生物作业时，AI 不仅识别了植物种类，还自动生成 3D 生长过程动画。」

行业分析师对此反应热烈：「这是从『语音命令』到『视觉对话』的质变。」(@ TopInfo)

4、FeedbackStream：8 分钟创建 AI 面试智能体

FeedbackStream 能够更频繁地以类人 AI 智能体客户访谈的形式与客户进行互动。它比调查更深入、更个性化，同时比一对一访谈更节省时间。

工作流程：

8 分钟创建 AI 面试智能体：构建无限数量的智能体，以适应不同的场景或客户流程。用户只需提供希望智能体提出的问题，并设定访谈目标即可。
邀请客户：将访谈链接嵌入用户网站，或通过电子邮件或短信发送给客户。客户可以随时点击链接开始访谈。
审查访谈结果：访谈结束后，用户将收到回复通知，并可查看自动生成的摘要、建议以及完整的访谈记录。(@Product Hunt)

有态度的观点

1、李开复：中国大模型未来大概率只剩下三家

3 月 20 日，零一万物 CEO、创新工场董事长李开复博士接受了彭博社的专访。在访谈中他表示，DeepSeek 热潮之后，中国经历了自己的「DeepSeek」时刻。李开复以 Windows 内核类比：DeepSeek 是 Windows 内核，而零一万物提供的平台则是 Windows 操作系统、应用程序、UI 界面。李开复强调，AI 需要市场，市场也需要 AI。要真正发挥大模型的价值所在，AI 领域内仍然没有出现自己的「Windows 操作系统」，零一万物想要做的正是填补这一空缺。

谈及大模型领域未来的竞争格局，李开复预测中国大模型领域未来将会收敛至 DeepSeek、阿里巴巴、字节跳动三家，其中以 DeepSeek 势头最猛；美国则以 xAI 的发展势头最为迅速，但 OpenAI、Anthropic、Google 也都会做出令人敬佩的研发工作。至于中美之间的 AI 竞赛，李开复认为 GPU 资源稀缺的情况反而倒逼着 DeepSeek 做出了惊艳业界的技术创新，实现训推成本与模型性能的突破。在印证了「需求是创新之母」的同时，DeepSeek 的突破也使得开源模式呈现出压倒性的优势，坚持闭源策略的 OpenAI、Anthropic 等公司，都会面临更大的压力。(@APPSO)