谷歌Pixel手机录音应用上线说话人自动标注功能

基于声纹分割聚类技术，可在设备端实现多说话人语音实时区分[k]

机器之心专栏

作者：王泉、张帆

谷歌在2023年Made By Google大会上发布了Recorder应用的自动说话人标注功能，可实时为语音识别文本添加“说话人1”“说话人2”等匿名标签，显著提升长录音文本的可读性与实用性[k]

谷歌自2019年起为Pixel系列手机推出Recorder录音应用，具备音频录制、管理与编辑功能，并逐步集成语音识别、音频事件检测、智能浏览和自动标题生成等AI能力[k]

针对多人对话场景下语音转文字难以区分说话人的问题，谷歌推出基于声纹分割聚类（speaker diarization）技术的自动说话人标注功能。该技术源自谷歌2022年ICASSP会议发布的Turn-to-Diarize系统，现已实现在移动设备端的高效运行[k]

左图：关闭了说话人标注的录音文本。右图：开启了说话人标注的录音文本。

系统架构

Turn-to-Diarize系统由三个核心模块组成：说话人转换检测模型、声纹编码器模型和多阶段聚类算法，全部在用户设备本地运行，无需联网[k]

Turn-to-Diarize 系统的架构图。

说话人转换检测

系统采用基于Transformer Transducer（T-T）的模型，将声学特征转换为包含特殊标记<st>的文本序列，用以标识说话人切换事件。该模型优化了对<st>标记的检测准确率，并采用新型字符级损失函数，在保证精度的同时降低模型复杂度[k]

提取声纹特征

在检测到说话人转换后，系统通过声纹编码器为每个语音片段提取d-vector声纹嵌入。新方法避免混合声纹干扰，使用较长语音片段提升特征质量，并生成较短嵌入序列以降低后续计算负担[k]

多阶段聚类

为应对从数秒到18小时不等的录音长度，系统采用多阶段聚类策略：短音频使用聚合式分层聚类（AHC），中等长度采用谱聚类结合最大特征间隔法估算说话人数，长音频则先通过AHC预处理再进行谱聚类，有效控制计算复杂度[k]

该策略通过缓存和复用历史聚类结果，使每次调用的时间与空间复杂度上限为常数，适应移动设备资源限制，并可在不同设备上调节以平衡性能与准确率[k]

多阶段聚类策略的示意图。

实时校正与用户标注

作为流式系统，Recorder会持续优化已生成的说话人标签，确保显示结果的准确性[k]

用户还可手动重命名“说话人1”等标签为具体身份（如“汽车经销商”），进一步提升文本可读性与实用性[k]

Recorder 允许用户对说话人标签进行重命名，从而提升可读性。

未来发展方向

当前系统主要运行于Google Tensor芯片的CPU模块，未来计划迁移至TPU模块以进一步降低功耗[k]

谷歌还计划结合多语言声纹编码器与语音识别模型，将该功能扩展至英语以外的其他语言，提升全球适用性[k]

【声明】内容源于网络

机器之心

专业的人工智能媒体和产业服务平台

内容 16982

粉丝 0

机器之心专业的人工智能媒体和产业服务平台

总阅读175.1k

粉丝0

内容17.0k