数据分析中的隐私保护技术已有数十年的历史,差分隐私算法是这一领域的最新技术。使用差分隐私在统计数据库查询时,可以最大化数据查询的准确性,同时最大限度减少识别其记录的机会。
在一般的数据分析时,如果知道某个用户A的记录位置,攻击者只能使用特定形式的查询Qi返回数据库中前i行中第一列 X 的部分总和。攻击者为了获取用户A是否有糖尿病的信息,只需要执行两个查询 Q5(D1)和Q4(D1),分别计算前五行和前四行的总和,然后计算两个查询的差别。在本例中Q5(D1)=3,Q4(D1)=2,差是1。攻击者在知道用户A在第5行的情况下,就会知道他的糖尿病状况是1(有糖尿病)。这个例子显示了即使在没有明确查询特定个人信息的情况下, 个人信息如何被泄露。继续这个例子,如果我们用(用户A,0)代替(用户A,1)构造D2, 如果攻击者被要求通过 -差分隐私算法接收Qi值,则他将不能区分这两个数据集。
举例来说,2006年10月,Netflix提出一笔100万美元的奖金,作为将其推荐系统改进达10%的奖励。Netflix还发布了一个训练数据集供竞选开发者训练其系统。在发布此数据集时,Netflix提供了免责声明:为保护客户的隐私,可识别单个客户的所有个人信息已被删除,并且所有客户ID已用随机分配的ID [sic]替代。
Netflix不是网络上唯一的电影评级门户网站,其他网站还有很多,包括IMDb。个人可以在IMDb上注册和评价电影,并且可以选择匿名化自己的详情。德克萨斯州大学奥斯汀分校的研究员Arvind Narayanan和Vitaly Shmatikov将Netflix匿名化的训练数据库与IMDb数据库(根据用户评价日期)相连,能够部分反匿名化Netflix的训练数据库,危及到部分用户的身份信息。
卡内基梅隆大学的Latanya Sweeney的将匿名化的GIC数据库(包含每位患者的出生日期、性别和邮政编码)与选民登记记录相连后,可以找出马萨诸塞州州长的病历。
那么,差分隐私简单地说就是避免根据减少或增加已知信息来推导其他信息的隐私保护手段。最简单的算法之一是拉普拉斯机制,可以对聚合查询的结果进行后期处理。用于计数的拉普拉斯机制仅仅是一个简单的差分隐私算法,它也可以扩展到求和以及其他聚合查询。此外,存在着一些从根本上不同的算法,它们已经被证明可以保证差分隐私。几个值得探索的是私人乘法权重算法,乘法权重指数机制和DualQuery。
对差分隐私的使用目前三种使用时机,有提交时采用差分隐私随机响应算法从Chrome浏览器收集行为统计数据, 在随机响应中,在提交给收集者之前,随机噪声被添加到统计数据中。例如,如果实际统计数据为0,浏览器将以某种概率将0替换为随机选择的0或1。每个用户在很大程度上可以否定其软件报告的价值,因为它可能是随机值。但从整体上来说,信号会在随机噪声中显现出来,收集统计数据的组织(如谷歌或苹果)可以准确地观察到趋势;也有拉普拉斯机制对聚合查询的结果进行后期处理;还有在大数据处理过程中用差分隐私保护每一个过程数据;
差分隐私算法也已经在隐私保护分析产品中实现。
本文参考百度百科与CSDN文章。
————————————————
版权声明:本文为CSDN博主「清华kenny」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/salonzhou/article/details/106674113
网友评论