01
有话题的技术
1、中科院开源语言-视觉-语音多模态模型 Stream-Omni
中国科学院计算技术研究所等最新开源了一款类 GPT-4o 的语言-视觉-语音多模态模型:Stream-Omni。
该模型支持各种模态组合交互,可生成文本及语音回复。而且在语音交互过程中,可以无缝「边听边看」,它可以同步输出中间文本结果,类似 GPT-4o 的高级语音服务。
Stream-Omni 的核心是它模态对齐能力,特别是语音和文本之间的层维度映射,这使得该模型用少量多模态数据即可训练,尤其在语音数据上需求更少。
GitHub:
https://github.com/ictnlp/Stream-Omni (@aigclink@X)
2、快手推出全新多模态模型 Kwai Keye-VL,在视频理解、视觉感知和推理任务中表现出色
日前,快手 Kwai Keye 团队推出全新多模态大语言模型「Kwai Keye-VL」,其在视频理解、视觉感知和推理任务中表现出色。
Kwai Keye-VL 总参数量为 8.7B,支持 BF16 精度;基于 Qwen3-8B 语言模型打造。为在预训练阶段构建强大的图文和视频理解能力,模型使用了总量高达 600B 的大规模多模态预训练数据集。
模型性能表现如下:
视频理解:在 Video-MME、Video-MMMU、LongVideoBench 等视频基准测试中,Kwai Keye-VL 的性能显著优于其他同等规模的模型,多项测试中超越 Qwen2.5-VL 7B、MiMO-VL 7B-RL 等模型;
逻辑推理:Kwai Keye-VL 保持综合感知能力比肩同规模顶尖模型的同时,在复杂推理任务中展现出显著领先优势。
目前,Kwai Keye-VL 已上架 GitHub、HuggingFace。
GitHub:
https://github.com/Kwai-Keye/Keye/tree/main
HuggingFace:
https://huggingface.co/Kwai-Keye/Keye-VL-8B-Preview (@APPSO)
3、科大讯飞升级声音复刻技术,不到 10 秒音频素材即可高度还原音色、停顿和口头禅
科大讯飞宣布其声音复刻技术迎来重大升级,用户仅需提供 10 秒音频样本即可高度还原个性化音色,目前已通过讯飞开放平台正式上线。这项基于 「三阶段层次化语音建模框架」的技术,不仅能精准捕捉发音规律和韵律特征,还可支持 37 种语言及 202 种方言的自然表达。
上文中这段让人难辨真假的音频并非真正出自李善德之口,而是运用的科大讯飞近期升级的声音复刻技术,不仅将声线高度契合,而且把语音中包含的情绪也复刻得非常到位。值得注意的是,这段 AI「李善德」的学习素材仅需不到 10s。
具体来看,该框架具体分为三个阶段,通过星火底座大模型精确捕捉发音规律和韵律特征、在音色恢复阶段解耦并重构声学特征、通过声码器恢复高保真波形。基于星火语音大模型底座能力,其可以快速从短时间音频中提取语音中的基础元素。
第二个阶段的本质正是通过将语音的音色属性从复杂的混合信号中剥离出来,并按照目标需求重新组合关键特征,以提高音色还原的准确性。
第三个阶段中的高保真波形恢复,能够尽可能还原原始音频的时域细节、频谱特征和动态范围。
据了解,这套语音建模框架突破语义表征,采用 mel VQ-AE 模型(Mel 频谱向量量化自编码器)结合语音自监督预训练编码器,并引入音色最小互信息约束,能解耦出音色无关的离散语义 token。
在音色解耦表征的基础上,科大讯飞进一步通过音色增强以及强化学习。其中,音色增强是指在声学模型中,研究人员融合全局声纹嵌入与局部帧级音色编码,提取细粒度音色特征,并构建声纹空间语义一致性损失函数,提升音色恢复的相似度;通过语音鲁棒性评价模型和人工标注构建偏好数据集,采用基于 DPO 的强化学习策略提升合成语音的稳定性和自然流畅度。
与传统技术相比,新版本在音色相似度(95% 以上)、情感表现力(支持 8 类情绪语调)和实时响应(200ms 延迟)等核心指标上实现质的飞跃。
例如在智能客服场景中,AI 配音的通话满意度已达 89%,虚拟教师语音的自然度评分(MOS)更是达到 4.2 分(满分 5 分)。(@智东西、@AI 智前沿)
02
有亮点的产品
1、蚂蚁集团发布 AI 健康管家 AQ:具备「医学思维」推理能力,还支持图片、语音、视频等多模态交互
6 月 26 日,蚂蚁集团全新发布 AI 健康应用「AQ」。
官方介绍,AQ 的技术引擎蚂蚁医疗大模型,学习了超万亿专业医疗语料,具备「医学思维」推理能力,同时还拥有图片、语音、视频等多模态交互能力。
同时,该模型还集合了蚂蚁在隐私安全风控方面的技术优势。
具体来看,AQ 能够在用户咨询病症时,提供模仿真人医生式追问,一步步引导用户提供必要信息,最终给出更准确全面的健康建议。
值得一提的是,全国近 200 位三甲名医,已在 AQ 上线了「AI 分身」,7 × 24 小时「坐诊」为用户答疑解惑。
另外,针对健康管理需求,AQ 提供个性化的健康档案服务,可记录就医、用药、运动、饮食等信息。
目前「AQ」App 已在各大应用商店陆续上线。(@APPSO)
2、三星新款 Galaxy Buds 耳机曝光,提供主动降噪与 Galaxy AI 功能
据 Android Central 援引三星印度消息,三星或将在今日推出全新 Galaxy Buds 耳机。
报道指出,新款 Galaxy Buds 或将命名为「Galaxy Buds Core」,并且会成为 Galaxy Buds FE 的更新替代品。从曝光的信息来看,Galaxy Buds Core 将回归经典豆状设计,并且采用入耳式音腔。
体验上,Galaxy Buds Core 将提供主动降噪与 Galaxy AI 功能(拥有 AI 实时翻译等功能);另外,新品还将支持 IP54 防尘防水以及蓝牙 5.4 连接。( @APPSO)
03
有态度的观点
1、《华尔街日报》:AI 做亲密朋友或恋人健康吗?
近日,《华尔街日报》举办了一场视频会议,三位专家就「 AI 做亲密朋友或恋人健康吗?」发表了不同观点。
精神科医生 Vasan 表示,如果人们过度依赖持续提供回应与支持的 AI ,可能会阻碍情感韧性发展或加深孤立感。她进一步表示,人际关系中的冲突、协商和妥协虽然困难,但也促进个人成长。
爱丁堡大学哲学教授 Vallor 则提出, AI 按需提供慰藉的便利会带来一个风险是:对非 AI 伴侣产生不切实际的期望(比如希望对方随时有空,或者总是能满足自己的需求)。
而哈佛商学院营销部门助理教授 Julian De Freitas 认为,AI 程序的某些功能是有利于友谊和浪漫的发展,它们能够给予用户足够的配合;并且目前不少 AI 能够根据个人定制化内容,以满足用户对于关系类型的想象。他表示,一定程度上,AI 能够满足人类的人际关系需求。(@APPSO)
加入我们的 Voice Agent 社区
RTE 开发者社区持续关注 Voice Agent 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣,也期待和更多开发者交流(每个月都有线上/线下 meetup,以及学习笔记分享),欢迎加入我们的社区微信群,一同探索人和 AI 的实时互动新范式。
加入我们:加微信 Creators2022,备注身份和来意(公司/项目+职位+加群),备注完整者优先加群。
11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨Voice Agent 学习笔记
实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨Voice Agent 学习笔记
a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场
a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多
ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队
端侧 AI 时代,每台家居设备都可以是一个 AI Agent
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
多模态 AI 怎么玩?这里有 18 个脑洞
AI 重塑宗教体验,语音 Agent 能否成为突破点?
写在最后:

