大数跨境

谷歌Recorder实现说话人自动标注,功能性与iOS语音备忘录再度拉大

谷歌Recorder实现说话人自动标注,功能性与iOS语音备忘录再度拉大 机器之心
2022-12-20
19
导读:未来谷歌计划将声纹分割聚类系统运行到 Google Tensor 的 TPU 模块上,从而进一步降低能耗。

谷歌Pixel手机录音应用上线说话人自动标注功能

基于声纹分割聚类技术,可在设备端实现多说话人语音实时区分[k]

机器之心专栏

作者:王泉、张帆
谷歌在2023年Made By Google大会上发布了Recorder应用的自动说话人标注功能,可实时为语音识别文本添加“说话人1”“说话人2”等匿名标签,显著提升长录音文本的可读性与实用性[k]

谷歌自2019年起为Pixel系列手机推出Recorder录音应用,具备音频录制、管理与编辑功能,并逐步集成语音识别、音频事件检测、智能浏览和自动标题生成等AI能力[k]

针对多人对话场景下语音转文字难以区分说话人的问题,谷歌推出基于声纹分割聚类(speaker diarization)技术的自动说话人标注功能。该技术源自谷歌2022年ICASSP会议发布的Turn-to-Diarize系统,现已实现在移动设备端的高效运行[k]

左图:关闭了说话人标注的录音文本。右图:开启了说话人标注的录音文本。

系统架构

Turn-to-Diarize系统由三个核心模块组成:说话人转换检测模型、声纹编码器模型和多阶段聚类算法,全部在用户设备本地运行,无需联网[k]

Turn-to-Diarize 系统的架构图。

说话人转换检测

系统采用基于Transformer Transducer(T-T)的模型,将声学特征转换为包含特殊标记<st>的文本序列,用以标识说话人切换事件。该模型优化了对<st>标记的检测准确率,并采用新型字符级损失函数,在保证精度的同时降低模型复杂度[k]

提取声纹特征

在检测到说话人转换后,系统通过声纹编码器为每个语音片段提取d-vector声纹嵌入。新方法避免混合声纹干扰,使用较长语音片段提升特征质量,并生成较短嵌入序列以降低后续计算负担[k]

多阶段聚类

为应对从数秒到18小时不等的录音长度,系统采用多阶段聚类策略:短音频使用聚合式分层聚类(AHC),中等长度采用谱聚类结合最大特征间隔法估算说话人数,长音频则先通过AHC预处理再进行谱聚类,有效控制计算复杂度[k]

该策略通过缓存和复用历史聚类结果,使每次调用的时间与空间复杂度上限为常数,适应移动设备资源限制,并可在不同设备上调节以平衡性能与准确率[k]

多阶段聚类策略的示意图。

实时校正与用户标注

作为流式系统,Recorder会持续优化已生成的说话人标签,确保显示结果的准确性[k]

用户还可手动重命名“说话人1”等标签为具体身份(如“汽车经销商”),进一步提升文本可读性与实用性[k]

Recorder 允许用户对说话人标签进行重命名,从而提升可读性。

未来发展方向

当前系统主要运行于Google Tensor芯片的CPU模块,未来计划迁移至TPU模块以进一步降低功耗[k]

谷歌还计划结合多语言声纹编码器与语音识别模型,将该功能扩展至英语以外的其他语言,提升全球适用性[k]

【声明】内容源于网络
0
0
机器之心
专业的人工智能媒体和产业服务平台
内容 16982
粉丝 0
机器之心 专业的人工智能媒体和产业服务平台
总阅读175.1k
粉丝0
内容17.0k