声纹识别比人脸识别更安全吗？对话听觉智能专家郑方_实时追踪

2025年中关村论坛平行论坛“未来互联网产业发展论坛”3月29日举行，清华大学人工智能研究院听觉智能中心主任郑方在论坛上表示，声纹智能是重构安全可信的下一代互联网身份防线。声纹识别会比人脸识别安全吗？未来应用前景如何？对此，新京报记者对郑方进行采访。

声纹识别有多项优势，更容易体现真实意图

新京报：目前，AI换脸等技术可能对人脸识别造成影响，在身份认证上，声纹识别会比人脸识别更安全吗？

郑方：声纹识别有几个优势比较明显。第一个就是防止伪造，现在生成式人工智能带来的威胁就是伪造出人的音视频，需要将伪造检测出来，尤其是深度伪造。声音的认证有比较强的信号的内在特性和方法的先进性，所以能够把伪造的声音非常准确地检测出来，保证认证的准确性。

语音信号中的多种语音信息，既可派生出多种识别技术，亦可综合运用解决复杂需求问题，比如方言口音识别、年龄识别、健康识别等。

另外，声纹识别更容易体现出真实意图。身份认证会涉及远程办理的情况，比如手机银行、电子政务等场景，虽然方便，但也可能存在被认证人被胁迫的情况。另外，也有被动认证的情况，比如在路过某处时人脸被扫描，在未知的情况下被认证。相比之下，声音中的情感容易被检测出来，比如声纹识别时检测出恐惧情感时，属于异常情况，可以进一步再验证本人是否主动进行认证。

语音还有适老化、信息无障碍的特点。比如我现在要进行一些操作，可以不用点手机菜单，而是直接把话说出来，其中既包含命令，也蕴含身份信息和意图是否自愿。这不仅对老人和残疾人非常方便，也让健全人在特殊场合的操作更加简便，比如两手提着东西或者开车时。

新京报：人脸有相像的情况，声音非常相似的话是否可以准确识别？

郑方：我们做过一些非常好的实验，找极端的案例，比如同卵双胞胎。同卵双胞胎光看人脸，有些是很难区分的，但声纹可以100%区分，所以声纹的区分性和唯一性是非常强的。

美国有些科学家做了很多年研究，对各种不同生物特征做了全面的比较，其中声纹在唯一性方面甚至比人脸要强。母女、父子、兄弟或者姐妹的人脸有时候很相似，但声音是能够完全分开的。

未来可进行“声纹+人脸”多模态识别

新京报：声纹识别是否有弱点，如何突破？

郑方：任何一个技术都会有弱点，声纹识别也不例外。和人脸识别会受到光线影响一样，声纹识别存在噪声的问题，但并非不能解决。比如鸡尾酒会效应，是指在嘈杂环境中，人们能够专注于一个特定声音源并忽略其他声音的能力。所以我们可以用麦克风阵列的技术把噪声去掉，前期已经做了一些基础研究和铺垫。

另外，人的声音和长相一样，会随着年龄增长出现变化。针对这个情况，我们提前20年就开始做基础课题的研究，已经收集了15年的数据，找了一组志愿者，连续15年每周说相同的话，最后找到了人的声音随年龄变化的规律，我们称之为声音的时变。所以我们现在基本上找到了解决方案，而且效果比较好。

录音重放攻击是个巨大安全威胁，对此，我们发明了防假体攻击鉴伪（鉴别伪造）技术。

新京报：未来声纹识别是否可以叠加其他特征一起识别？

郑方：可以进行多模态的识别，用声纹跟人脸结合，这是生物特征认证最好的两种方式。一方面，声纹和人脸是人类和自然界信息交互最主要的两种方式。另外，在手机等智能终端上，麦克风和摄像头是标配。

所以我们多年前就启动了声纹和人脸结合的研究，比较超前的方面是我们的技术可以不用把声音听全，不用把人脸看全，即非完整信息融合。比如影像被某个物品遮住一部分，声音突然被关门声盖过了一部分，也可以实现识别。这带来了更大的便利，比如人脸不用对准识别框，声音也不用输入时按键、结束时松手，实现无感认证。这个认证方式包含了防伪造攻击、体现意图等特点。

新京报：声纹识别的应用前景如何？离大规模应用还有多久？

郑方：应用会非常广泛，目前已经在移动金融、公安、社保、智慧家居等领域有了一些应用实践。国家政务服务平台上已经开通了以声纹识别的方式进行网络身份认证登录的通道。

《国家网络身份认证公共服务管理办法（征求意见稿）》去年已经向社会公开征求意见，预计很快公开。未来网络身份认证将会应用到声纹，推动之后会非常快速地覆盖应用，我们现在做的都是前期准备和验证工作。

新京报记者张璐

编辑张磊校对赵琳

纵观资讯

声纹识别比人脸识别更安全吗？对话听觉智能专家郑方

热门标签

热门排行

最新更新

友情链接