1. 人脸识别技术现状
在日常生活中,每一个自然人基本都经历过过人脸识别,主要分如下两大类:
1.1. 生活中
-
坐火车,进站需要刷脸和刷身份证
-
APP的实名认证,打开手机刷脸
-
支付宝用手机扫描自己“花呗”支付
-
在商店,面对商家的支付平板设备,扫脸支付(如华联)
-
去售楼处买房子,被房间角落的摄像头识别出身份
-
进出办公大楼,需要人脸闸机核验,自动开门
1.2. 其它等不可言说的
-
部分城市的交通卡口,增加了闯红灯人脸识别(如济南,会大屏幕播报闯红灯的人脸和身份证号)
-
遍布城市、乡村各个角落的部分摄像头,接入天网(强大的情报系统)
-
媒体内容合规性审查(如出现境外敏感人物)
看上去,人脸识别技术,已经成功的渗透到了我们的工作、生活以及社会稳定治理方面了。
2. 从技术角度对上述场景做归类
这个章节,会带有一些技术专业术语,笔者尽可能说的通俗化,该章节比较重要,不建议跳过阅读。
2.1. 识别类型归类
从识别类型上,分为1:1对比 和 1:N对比。
-
1:1对比,解释起来比较简单。意思是,首先设备知道想要识别的对象是谁,设备只需要鉴别出现在镜头里的人脸,是否是设备想要的对象即可。 典型场景是:进火车站,同时刷脸又刷身份证。如张三将身份证放到设备上,设备首先知道,预期出现在镜头里的人,应该是张三。设备只需要将身份证上的张三头像,和镜头里出现的人脸,做1:1比较即可。(同理,APP实名认证、支付宝用手机扫描自己“花呗”支付,均属于1:1对比)
-
1:N对比,意思是镜头里的一个人脸,和数据库里N个人脸做比对识别。典型场景:在商店,面对商家的支付平板设备,扫脸支付(如华联);去售楼处买房子,被房间角落的摄像头识别出身份;进出办公大楼,需要人脸闸机核验,自动开门。
显而易见的,1:N的技术难度要更高一些。为什么?从一个人里挑出来目标人物,和从一堆人里挑出目标人物,当然是后者难度更大。
表格统计如下:
1:1和1:N的区别,就在于人脸的大小。1:1可以认为,人脸库是1,1:N可以认为,人脸库是N。如进出办公楼人脸闸机场景,加入该办公楼办公人员是100,那么人脸底库数量就是100,也就是N=100.
2.2. 识别技术归类
从识别技术上,分为瞳孔间距测量法、深度学习128/256/512点法。
基本所有的人脸识别技术,会采用上述两种方法做交叉验证。
2.3. 距离限制归类
-
短距离,也就是1m以内。
-
远距离,普通的4mm焦距摄像头(也就是市面上最常见的),有效距离不超过8m,且识别准确率大大低于短距离。
显而易见,远距离识别的难度,大大高于短距离识别。
2.4. 其它-活体检测
我们在手机app做人员身份认证的时候,通常会要求 “张张嘴、摇摇头”,是检测被测人脸是否是活体状态。据说,著名的“北大吴谢宇杀母案件”,就是在吴谢宇同学使用其母亲静态的尸体,做app现金交易活体验证的时候,被AI算法发现异常的。
2.5. 其它-佩戴配饰
-
佩戴口罩:能够增加识别难度,一般不影响识别精确度。特殊场景,影响较大
-
佩戴墨镜:不可以。眼睛是重要特征,佩戴墨镜之后,人脸识别的意义较小
-
佩戴耳环、鼻环等:不影响人脸识别
3. 困难点拆解分析
通过上述描述,可以得出结论:1:1场景、短距离(1m以内),是最容易的,几乎可以认为是100%准确率(业界基本可以做到99.9999999%,即 使用1亿次,会有1次出错,基本可忽略)。这也是人脸识别技术,最可靠的落地方案。生活中,绝大部分的使用场景,均是该类型。
任何非1:1、短距离场景的人脸识别技术应用,都有极大的准确率风险,需要人工二次核验。
我们拆开分解一下(一共就俩变量,一个是人脸库大小,一个是距离。高中学过的“控制变量法”,大家回忆一下):
3.1. 从1:1到1:N(距离限制在1m以内)
也就是人脸库的人脸数量从1,逐渐变大。那么人脸识别的准确率,是逐步下降的,对应的曲线如下:
(注1:上图中的N,我把它意为,底库人脸量增加到某一个值,算法的准确率开始显著下降。笔者认为,这个N,也是衡量各个人脸识别技术服务商的技术能力重要指标。有的厂商,可以将N做到5亿,有的厂商,只能做到10万。)
(注2:所以,恳请各位业主老总们,千万不要听你们的供应商瞎吹牛,什么准确率99.99%,其实一定要看使用场景的)
也就是随着底库人脸数量的逐渐变大,人脸识别的准确率,也会逐渐变低。我们把上述1:N、1米以内的场景,按照难度大小,排列一下,如下:
下面解释下,各个得分的评分依据:
-
进出办公大楼,需要人脸闸机核验,自动开门。难度分,1分,为什么?因为这个底库人脸量,说破大天,也就10万,而且是1m的距离(即便是中国铁路这种员工最多的,100万人,也不是问题)。这对人脸识别场景,是小case。=====>所以,这个难度分是1分,你要问我,进入火车站的人&证比对(1:1)技术,得几分?不好意思,0分。
-
在商店,面对商家的支付平板设备,扫脸支付。难度分90分,为什么?(首先大家要注意,该过程是不通过个人手机的,仅仅是用商家的设备,扫描自己的脸),首先,我们看下,为什么扣了10分?扣了10分主要在于,并不是每个人每次支付,都能100%不借助二次确认,如扫脸后,偶尔会二次确认手机尾号等。所以,====>扣10分。 其次,我们看下,为什么得了足足90分,因为,底库的人脸量,确实太大了。以支付宝平板支付为例,我们一次支付,支付宝后台,会比对8亿人脸库。这个数量,已经要求人脸识别技术质变的飞越。 有的同学会问,会不会和城市有关,如 支付宝后台,仅比对常驻地的底库,也就可以把8亿底库缩减为1000万。为此,笔者特地出差去外地,实地验证过,答案是,底库就是8亿。
哦!赞美它!支付宝平板人脸支付!太方便了!
不过,笔者要吐槽一下 微信平板支付,真的是一言难尽。。。。
(小道消息:支付宝的平板支付,采用的xxx公司的人脸识别技术,它的达摩院,干不了这活;
而微信的平板支付,采用的是自研技术,啧啧啧,再加把力,你一定可以的!)
3.2. 从1米到8米(1:N场景)
我们将定量控制在1:N场景,但是将识别距离拉远。废话不多说,开头咱们先来一个难度评分:
显而易见,远距离1:N场景,难度普遍较高。
下面解释各个项的评分依据:
-
去售楼处买房子 和 城市的交通卡口难度分分别是50分和60分,首先拍摄场景比较单一,其次所涉及到的人脸底库通常不会太大(通常在500万以内,而售楼处场景,人脸底库则更小)。为什么交通卡口场景比售楼处场景更难一些呢?因为售楼处通常是室内,光线的影响相对要小一些。
-
天网场景,难度分直接突破上限。为什么?因为目前尚不具备(未来也不会具备)真正意义上的天网人脸识别。首先是场景多样化,直接影响AI算法的准确率,其次是距离,其次是所涉及的人脸底库是海量的。当前的人脸识别技术,只能完成一定约束条件下的天网人脸识别,无法达到普通人认知的那么可怕。需要辅以大量的人工二次核验工作。
-
在媒体内容合规性审查领域,需要对更多场景的人员做识别,包含会议、室外、酒店、娱乐场所、古装等我们人类可认知的所有场景。其次,该领域的审查,是要求务必严格的,哪怕人员出现在图像中一个非常小的像素区域,也要求被识别,这在技术领域,是非常困难突破的。
上述文字,已经初步的对不同条件下的人脸识别技术做了分析,我相信即便如此,还有很多同学,无法非常感同身受的理解相关细节,欢迎留言提问。
4. 写在最后
在人脸识别技术的应用当中,其实还有一些其它的相关名词概念,比如活体检测、toF相机等,这些对最终的识别效果没有本质的影响,所以本文并未讨论。
最后,也是最重要的一点:
其实AI算法没有想象中的那么强大,人脸识别技术的上限,就是人的肉眼的分辨能力。而大多数场景,该技术没有办法达到上限。
所以,如何判断当你暴露在一张照片或者摄像头之下,会不是被人脸识别算法识别出来呢?要么遮挡住你的眼睛&戴上口罩&低头,要么保证自己人脸出现在画面中的像素足够少(长宽低于20个像素)。总而言之一句话,当目标的亲妈,看着图片中的脸,都认不出是自己儿子,那么人脸识别算法,也一定识别不出来。
网友评论