《中国财富》杂志专访远鉴首席科学家郑榕
近日,远鉴首席科学家兼多维身份识别与可信认证技术国家工程实验室技术委员会委员郑榕博士接受了《中国财富》杂志的专访,畅聊了声纹技术在信息安全防线里发挥的重要作用。同时郑榕博士也表示声纹识别是公司的特色技术,除此之外远鉴还具备自主知识产权的语音、图像全栈技术,并首创多维身份识别技术。远鉴将全栈技术能力应用到更广阔的信息安全领域,用来保护网络身份信息认证和互联网内容风控,实现了“身份 + 内容”的新安全。
创刊于2004年4月的《中国财富》,由南方都市报、中国扶贫基金会、北京大学公民社会研究中心联合出品,整合公益界、学术界、传媒界以及企业界、政界、文化界等各种有志于公益慈善事业的力量和资源,透过新闻专业主义的手法,站在公民社会建设理念和实践的最前沿,以敏锐的传媒视角、全面深入的理性思考,和具备高度社会责任感的实践精神,及开放和包容的工作心态打造“中国公益第一刊”。
以下为本次采访原文:
文|柳晖
我们的声音和指纹、人脸一样,都具备相对稳定又唯一的特征。随着远鉴等科技公司在声纹识别技术领域的突破,声纹识别正在金融、公共安全、互联网等领域快速应用。全球范围内,声纹识别也是竞争激烈的技术赛道,在美国政府进行出口管制的 14 类技术中,声纹识别就位列其中。
指纹打卡、人脸识别打卡已经成为不少公司的标配。不过,在新冠肺炎疫情背景下,声纹考勤系统成为不少企业的选择。借助声纹识别技术,员工只需要念几个数字,不需要摘口罩,也不需要接触屏幕,就可以完成身份认证和打卡。
近几年,声纹识别不仅仅应用于公司考勤系统、门禁系统,在公共安全、金融、互联网、健康等领域,声纹识别也已经成为常规的身份认证手段,而结合声纹、人脸识别等技术的多模态认证,也成为个人身份认证的新趋势。
为进一步了解声纹识别技术的应用前景,我们采访了北京远鉴信息技术有限公司(以下简称“远鉴”)的首席科学家兼多维身份识别与可信认证技术国家工程实验室技术委员会委员郑榕博士。远鉴是国内专攻声纹识别领域的创新企业,在 2019 年首届中国人工智能多媒体信息识别技术竞赛中,远鉴拿到了声纹识别领域的冠军,并与旷视科技、科大讯飞、商汤科技等身份识别领域的头部企业一起,成为多媒体信息识别技术竞赛 A 级认证的企业。
单一的身份认证都不一定可靠
与指纹、人脸、虹膜等生物特征一样,一个人的声音特征也是独一无二的,而且具有稳定性,因此,从上世纪 70 年代开始,就有人开始研究基于声纹的识别技术。尽管研究起步很早,但有意思的是,看起来更复杂的人脸识别与指纹识别在应用上似乎走在了声纹识别的前面。郑榕解释说:“声纹认证的门槛相对较高。除了解决噪音、多人场景的问题,声纹识别还需要解决跨信道比对与跨信道认证的问题,否则就没办法大规模商业化。”
以银行接入声纹认证为例,假如客户第一次录入的声音是用手机的麦克风采集的,之后再用座机拨打客服电话,那采集声音的设备就换成座机的麦克风了——所谓“跨信道认证”,就是要处理不同采集设备以及不同采集参数(比如,手机上的各个应用程序在处理声音时,选择的参数并不相同)下的声音信号,而在过去,这是一个很难逾越的障碍。
近几年来,随着远鉴等科技公司在跨信道认证上的突破,声纹识别的商业化也走上了快车道。郑榕介绍说,跨信道比对以及跨信道认证,涉及人工智能的深度学习算法,需要对各种信道进行针对性训练之后才能完成,这也是远鉴的核心技术之一。
推动声纹识别快速商业化的另一个原因,是识别过程的简化。以远鉴的技术为例,只需要20 秒左右的录音(或者朗读 3 遍 8 位的随机数字串),就可以完成声纹特征的采集。在过去,要完成这一过程,需要念一两分钟的文本才能完成。
不过,声纹识别也并不是绝对安全的。“单一模态的身份认证都不安全。”郑榕说。不管是指纹识别、人脸识别、步态识别,还是虹膜识别,单一的认证方式都很难保证安全。因此,综合多种生物特征的多模态认证技术就成为必然的选择,为此,远鉴也在积极研发人脸识别技术,与声纹识别技术形成多模态认证体系,目前已经成功投入商用。
将人脸识别与声纹识别综合到一起,再结合 OTP(一次性密码),结合多因子活体检测就构成了远鉴主推的多模态身份认证方式。郑榕说,人脸识别与声纹识别技术可以综合互补。以网约车司机的身份认证为例,光线好的时候,可以采用人脸识别认证,而在光线较弱或者在开车途中的身份认证,则可以用声纹识别来完成。在声纹识别过程中,用户需要在限定时间内(比如 5 秒内)读出若干位随机产生的数字,这些数字都是一次性的(OTP),这就为人为合成语音制造了难度——系统会对随机数字的内容进行认证,也会对声纹特征进行比对,在双重验证之下,进一步强化了身份确认的可靠性。
声纹识别应用上有两个分支,可以简单总结为 1 ∶ N 与 1 ∶ 1。
前者是辨认场景,作用是鉴别说话者的身份。比如安全部门在搜查恐怖分子的时候,就经常使用这一模式,将嫌疑人声音与数据库中的声音进行比对,以搜查或排查声音的主人。这一模式需要庞大的声纹数据库来进行比对。
后者是确认场景,最常见的就是声纹门锁。这一模式并不是从数据库中鉴别一个人的身份,而是判断说话者和他声称的身份是否一致,银行在柜台通过声纹识别确认客户的身份,汽车判断驾驶座上发出指令的人是否是车主,都采用的是类似的模式。
这两种模式可以用于鉴别未知身份人的确切身份,或者对一个人自己声称的身份进行确认。对用户来说,对自我身份的确证是非常重要的功能,可以让我们在线上办理许多以前必须当面验证的服务。
线下场景的线上化
在郑榕看来,我们在未来或许可以和密码说再见。
对现代人来说,密码是让人又爱又恨的存在。混合数字、字母、大小写,甚至还有特殊字符的密码,很难被记住。另一方面,为了保证数据的安全性,在不同的应用与平台上,我们需要设置不同的密码。越来越长,以及越来越多的密码,渐渐成为负担。
基于生物特征的身份认证,则解决了密码带来的负担。不管是人脸识别,还是声纹识别,都不需要特意去记忆和准备,在安全性上也并不比密码差。
郑榕说,多模态身份认证给互联网带来的最大改变,是推动了线下场景线上化的过程,许多原本只能在线下完成的业务,在引入这种认证方式之后,就可以在线上完成。
以驾照的年检为例,由于人脸识别技术的引入,原本必须去交警支队办理的业务,可以通过远程上传照片与体检报告来完成,在家等快递送达新的驾照即可。
要实现线下业务线上化,就必须有廉价、可靠且可以远程实现的验证方式。相比指纹、虹膜、人脸识别,声纹识别的成本是最低的。当指纹、虹膜必须当面认证时,声纹识别却与人脸识别一样,可以远程完成。
目前,远鉴主要与银行、保险公司合作,来推动线下场景线上化的进程。远鉴是国内首批通过央行银行卡检测中心(BCTC)权威检测的声纹识别企业,目前在齐鲁银行、招商银行等金融机构,已经成功部署并应用远鉴的身份识别系统。
此外,由于曾承担公安部、网信办的多项国家重点工程,远鉴在数据响应、超大规模数据持续训练上,快速创新和迭代了识别算法,因此,在 1∶N 身份识别模式上有丰富经验和成功案例。
因此,在参与大规模的线下业务线上化的过程中,远鉴可以提供相对稳定和安全的支持。在与公安部、网信办的合作之外,远鉴也在积极探索“互联网 + 政务服务”的模式。
以泰康人寿的考勤系统为例,由于保险业务员需要四处走访,要完成他们的考勤打卡业务,就需要比较有创意的解决方案。远鉴提供的是人脸识别 + 声纹识别 + 地理位置 +OTP 的多模态认证方式,可以让业务员在不中断客户访问的情况下完成考勤打卡。
基金和银行开户,目前还都是在线下柜台完成身份认证的,但郑榕认为,在未来或许也都可以借助多模态身份认证实现线上操作。事实上,民间也一直在呼吁一些线下业务尽快实现线上服务。以老人的生存性验证为例,原本都必须到柜台认证,但借助基于生物特征的远程认证之后,就可以用手机来完成。
郑榕也强调了多模态认证的重要性。他说,“单一的人脸识别也不一定可靠。尽管有些应用需要用户进行活体验证,比如眨眼或者转头,但网上一些开源程序,就可以用一张照片实现转头或眨眼的效果。”
这其实也反映了生物认证领域的两大趋势:第一个是多模态认证的兴起,第二个则是手机等个人设备成为生物信息输入的工具和接口。借助手机等设备进行身份认证,为了避免冒用身份,活体验证是常用的手段。所谓活体验证,就是确认正在进行身份认证操作的对象是活人,而不是机器。
在人脸识别中,常见的活体验证办法,是让用户按指引完成眨眼、转头等动作。声纹识别中,远鉴也开发出一些算法来完成活体验证。在活体验证之外,持续验证也是常用的防冒用手段。这是声纹识别比较擅长的领域。在说话的过程中,会持续地进行声纹比对,以避免中途换人的情况。
在多模态认证进一步发达的将来,银行卡应该也可以线上开户。到那时,该说再见的或许不只有密码,还有各种各样的实体卡。
隐私保护与体验感优化
人脸识别大规模应用以来,引起了许多人对隐私问题的担忧。毕竟,个人面容是比较敏感的内容,不少人会介意自己的人脸信息被收集和存储。
声纹识别相对好一些。在录入声音与认证身份的时候,用户一般是读一些随机数字,这些数字并没有实际意义,因此,与面容信息相比,敏感性相对较弱。
一个现实是,在过去若干年里,客服电话一直在告知客户“为了确保服务质量,您的通话可能被录音”——自己的声音被第三方采集和存储,对一般用户来说不存在心理障碍。
除了在内容上相对没那么敏感外,声纹识别还有一个特别大的优势,那就是它可以实现无感认证。
从用户的体验角度来看,声纹识别分有感与无感两种方式。
所谓有感认证,就是用户清晰地知道自己在进行认证,比如需要用户读出随机数字的时候,就是典型的有感认证,有感认证往往是与文本相关的,需要读出指定的文本(经常是随机数字)。
在无感认证的情况下,用户根本就不会意识到系统在对他的身份进行确认。这种方式不需要读出指定的文本,属于和文本无关的认证。在民用场景下,经常用于客户服务。以银行客服为例,借助这种无感声纹认证,银行不需要一再确认打电话进来的客户的身份,而且,由于声纹识别可以持续认证,如果通话中途换人,也可以快速鉴别出来。
在提升用户体验感方面,郑榕认为声纹识别还有巨大的想象空间。比如说,未来可以在短语音认证上继续努力,如果只需要少量几个音节就可以完成认证,那用户有感认证的体验感也会大大提升。此外,通过声纹分析个人特征也是可以进一步完善的方向。如果可以通过声音来抓取年龄、情绪、性别和性格等属性,那么企业在为客户提供服务时,可以更具针对性。在远鉴的公司宣传册上,印着“依托人工智能技术构建可信网络”这句话,在沟通中,郑榕也表示,声纹识别是公司的特色技术,远鉴还具备自主知识产权的语音、图像全栈技术,并首创多维身份识别技术。远鉴将全栈技术能力应用到更广阔的信息安全领域,用来保护网络身份信息认证和互联网内容风控,实现了“身份 + 内容”的新安全。未来远鉴将继续发力信息安全,有力支撑“数字中国”新型信息基础设施建设,为国家网络信息安全筑好坚固基石。
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。