声纹身份认证能否应对语音深度伪造的挑战？- 大数跨境

两江科技评论

2022-07-11

导读：单以深度学习对抗深度学习，攻易而守难

来源：得意音通

7月3日，中国科学院院士、清华大学人工智能研究院名誉院长张钹在第十届世界和平论坛大会上指出，现阶段用人工智能算法来伪造视频、照片、语音已不存在技术难题。“试想一下，如果将来你没讲过的话，被别人造谣为你讲过的，而且后期技术也难分辨真假，那这对社会的危害是极大的，因此对于这一问题各方都应重视。”张钹院士说。

张钹院士受邀出席第十届世界和平论坛大会

张钹院士关于深度伪造技术的上述表示引发人工智能圈不小的轰动。

深度伪造技术从2017年刚诞生时用的卷积神经网络到现在最新的对抗生成网络，具有极强的自适应性，通过在对抗生成网络中不断自我优化，不断升级换代，甚至已经达到了“真实得可怕”的水平。语音深度伪造是指利用人工智能技术（如机器学习算法、神经网络等）对人的声音进行“学习—模仿”，这项技术的出现意味着任何人的声音都可以被伪造和替换。

那么问题来了，声纹身份认证究竟能否应对语音深度伪造的挑战？

说巧不巧。就在本周，自定义发音密码攻防挑战在即，但来自海康威视、浙江大学等知名企业与高校的7组挑战者，最终却纷纷选择放弃挑战。

先来回顾一下挑战规则：

攻击产品：自定义发音密码。用户可自主选择，1～10 个可自定义发音的密码数目；发音由用户完全自主定义，不限语种，不限方言种类，不限读音。

攻击方式：针对攻击目标产品的直接攻击（呈现攻击），包括模仿攻击、语音合成攻击、声音转换攻击、录音重放攻击、录音拼接重放攻击等，不包括对系统的间接攻击。

攻击前提：被攻击者按组织方提示进行自定义发音配置时，挑战者不允许在场。

数据提供：组织方为各挑战者提供统一标准的语音数据以供训练（包括：1.被攻击者正常发音0-9数字读音；2.被攻击者普通话文章朗读10分钟）。

结果判决依据：攻击目标产品共产生5次动态声纹密码，挑战者有一次验证通过就算挑战成功，攻击时间结束未通过验证视为挑战失败。

为什么报名者纷纷在挑战前选择放弃？

一起来看看张钹院士还说过什么！

“声纹（可能）是目前除DNA外，最可靠的身份认证方式。这个跟郑方教授他们领导的小组的长期研究分不开。”

——出自2022年CCTV《大国匠心》专访

为什么？

“（得意音通的）声纹（识别）现在没有完全使用基于大数据的深度学习方法，为什么声纹识别（系统）到现在为止还没有找到一个非常有效的攻击手段？原因之一可能在这里，就是运用了多种的预处理方法，‘预处理’实际上体现了某种知识的运用。” （注：这些知识包括发音机理和听觉机理，它们的运用有效避免了不可解释的深度学习方法的安全漏洞）

——出自2020年第二届声纹识别产业发展与创新研讨会

自定义发音规则充分利用了“语音信号是变（语音内容）与不变（说话人身份）的高度统一”的特性，让用户介入了管理，从而提高了系统的安全性，作为目前肉眼可见最安全的声纹识别系统，它实际上已具备第三代人工智能所强调的某种“人机协同”特征。这一特征只有语音信号才具备，其他生理特征诸如人脸、指纹等都无法做到。

也就是说，单以深度学习对抗深度学习，攻易而守难；反之，则攻守之势异也。