接上文我们完成了数据集的匿名化处理,并满足K匿名,最小等价类为某个确定值K。
重识别风险评估
为了计算重标识风险,我们假设攻击者已经知晓某个特定的自然人的数据存在与这个数据集中,然后尝试确定出数据集中的哪条记录是关于该自然人的。
根据隐私风险的评估方法FAIR(Factor Analysis of Information Risk), Privacy Risk = Threat Frequency * Harm Magnitude, 其中Threat Frequency = Attempt Frequency * Vulnerability。
第一步,我们先看其中的Vulnerability,P(重标识某条记录可能性) = 1/该数据集中的最小等价类数量。考虑到数据集已经被K匿名,所以P(重标识某条记录)<=1/K
这是攻击的成功比率,第二步我们还需要再乘上被攻击的可能性
P(重标识可能性)<=(1/K) * P(攻击可能性)
攻击者的攻击可能性是由Opportunity和Motivation组成的, 影响opportunity的因素主要有:
1. 安全技术保障措施;
2. 管理措施与合同约束;
同时如下因素会决定攻击者的motivation:
1. 愿意违反合同或内部规章制度的意愿;
2. 数据集中是否保护敏感信息;
3. 攻击者获得其他可用信息(可用于进行关联攻击)的容易程度;
可以基于此构建一个可能性分析表
图1-攻击尝试可能性分析表这其中要区分数据发布的类型,如果数据是对外公开发布,由于我们没有办法限制对手的攻击尝试以及对手获得其他可用信息进行关联攻击,所以攻击几率应该定为1.
最后我们再乘上不同类型数据被重标识的损害系数: 例如高敏感数据泄漏危害系数0.9, 敏感数据0.5,一般个人数据0.1, 获得整体的风险值,并与预先定义的可接收风险阈值相对比。如果高于阈值,则重新调整所使用的数据匿名化手段,或如下节所介绍通过组合其他技术/管理措施来降低风险。
风险管理
为了降低发布数据集的重标识风险,除了组合不同的匿名化技术,提升重标识难度外,通过部署充分的技术与管理措施来加强对数据的保护。
可用技术措施
1. 对发布数据集进行严格的权限访问控制,限制可访问数据集用户的范围,并定期对访问权限进行检查;
2. 保护假名化的算法,对假名字段与原始识别符的匹配表进行加密保护;
3. 对包含高度敏感信息的数据集,匿名化处理后再次进行加密;
可用管理措施
1. 利用数据目录记录已共享数据集,防止不同数据集通过组合暴露个人隐私;
2. 通过审批流程控制匿名化后的数据集访问的使用;
3. 禁止组织内部成员对匿名化数据集未经批准进行重识别;
4. 定期检查数据的重标识风险;
5. 定期清理组织内部不再使用的匿名数据集;
6. 针对外部合作伙伴,通过合同条款要求对方对我方提供的数据集提供合理安全保障措施,并限制对方对获取的数据集进行重识别。
总结
通过三篇文章,我们的匿名化/去标识化就介绍完了,我们最后做一个总结
1. 因为对手有可能掌握的额外信息是无限的,所以要实现完全的不可关联回特定数据主体是基本不可实现的,也就是说绝对的匿名化是做不到的,除非原始数据就不是个人信息。所以我更愿意称匿名化为一种手段,而它达到的结果和去标识化是一样的,可以实现在对手不借助其他知识的情况下无法重新关联回特定自然人。
2.数据匿名化一定要建立在正确的理解数据应用场景(怎么用-合适的数据粒度,给谁用-对手的范围与能力)之下,才能合理的选择匿名化手段以及正确评估与应对隐私风险。
3. 数据匿名化只是一种技术手段,要综合其他技术手段和管理措施共同来保护发布数据集的安全。
4. 聚合后的统计数据比匿名微数据能更好的保护个人隐私,尤其是实现了差分隐私的情况下。建议继续阅读差分隐私介绍
参考资料:
1. CIPT官方教程 - 《An Introduction to Privacy for Technology Professionals》
2. PDPC - Introduction to Basic Data Anonymisation Concepts
网友评论