为了解决同质性攻击和背景知识攻击所带来的隐私泄露,Machanavajjhala等人提出了L-多样性(l-diversity)模型。简单来说,就是在公开的数据中,每一个等价类里的敏感属性必须具有多样性,即L-多样性保证每一个等价类里,敏感属性至少有L个不同的取值,通过这样L-多样性使得攻击者最多只能以1/L的概率确认某个体的敏感信息,从而保证用户的隐私信息不能通过背景知识,同质知识等方法推断出来。
如上图所示,在每一个等价集中,包含至少3个以上不同的属性值,那么这部分公开数据就满足3-diversity的属性。
要实施L-多样性模型,除了上述的不可区分属性方式,通常还可以引入其他的统计方法来实现:
不可区分L-多样性(Distinction L-Diversity): 在同一个等价类中至少出现L个不同的敏感属性值。
基于概率的L-多样性(Probabilistic L-Diversity):在一个类型中出现频率最高的值的概率不大于1/L;
基于熵的L-多样性(Entropy L-Diversity): 在一个等价类中敏感数据分布的熵至少是log(L);
递归(C,L)-多样性(Recursive (C,L)-Diversity): 通过递归的方式,保证等价类中最经常出现的值的出现频率不要太高。
递归(C1, C2, L)-多样性(Recursive(C1,C2,L)-Diversity): 通过递归的方式,保证等价类中最经常出现的值的出现频率不要太高, 同时还保证了等价类中频率最低的敏感属性出现的频率不能太低。
L-多样性也具有一定局限性:
敏感属性比例的严重不均衡导致L-多样性难以实现,例如某疾病检测报告,敏感属性只有“阳性”和“阴性”,分别占比1%和99%,阴性人群并不在乎被人知道结果,但阳性人群可能很敏感。如果在一个等价类中均为阴性,是没有必要实现可区分的2-Diversity。
偏斜性攻击(Skewness Attack):如果在上面那个例子中,我们保证了阳性和阴性出现的概率相同,虽然保证了多样性,但是泄露隐私的可能性会变大,因为L-多样性并没有考虑敏感属性的总体分布。
L-多样性没有考虑敏感属性的语义,而导致敏感信息的泄露。例如敏感属性是“工资”,某一等价类中的取值全为2K-3K之间,那么观察者只要知道用户在这一等价类总就可以知道其工资处于较低水平,具体数值观察者并不关心。
网友评论