美文网首页IAPP CIPT认证
CIPT考点解析-量级数据&频率计数数据

CIPT考点解析-量级数据&频率计数数据

作者: 遥望潇湘 | 来源:发表于2023-02-24 10:32 被阅读0次

在教材第四章介绍使用数据统计来实现匿名化时,介绍了两个名词“frequency data”和“magnitude data”,我们对这个知识点做一个扩展介绍。

1. Frequency Data

频率计数数据(Frequency Data), 顾名思义,它是统计列表中针对单个类别的统计数值,或者是以百分比表示的占比值。在频率数据表中,每个来源数据的贡献是一致的,意思是每条原始记录都只能让统计表的总值加一,或者是占比有同比例调整。

下图是美国人口普查局的数据统计表,其中绿框部分就是频率计数数据。它反应了阿拉巴马州某个县的年龄分布情况。假设我们发现漏统计了一个居民-老王,无论他的年龄是多少,对统计表的影响都是一样的,无非是在哪一行的数值上加一。

图1-美国人口普查数据

当一个单元格只有少数记录并且特征足够独特时,这种类型的表格会出现隐私泄露问题。 有背景知识的攻击者就有可能识别其中的各个具体自然人。 比如上表如果有一个分段是年龄大于100岁,且该州只有1人,我们通过把位置精度从当前的县一级,继续下钻到居民区一级,就可能曝光处该百岁老人的大致居住区域。

要在频率计数表中以最大限度地降低受访者被识别的风险,就需要控制敏感单元格的阈值定义。 典型的方法包括数据抑制和各种数据扰动方法(包括传统舍入、随机舍入、受控舍入和记录交换)。

2. Magnitude Data

量级数据表(Magnitude Data)是单元格中所有符合要求记录的数值总和,当然也可以是通过对总和进行过的数学运算(中值,均值,最大最小值等)。这个量级数据的特点是它要将原始记录的数值拿进来参与计算,所以在量级数据表中,每条原始记录对每个单元格的贡献不均。 

我们还是看上面的Census数据表,其中红框内就是量级数据,它计算了该县居民年龄的中值。如果新迁入的居民老王,年龄刚好是50,那中值就会增大;如果少年老成正值18,那这个中值就会变小。如果这里把中值替换成均值,会更明显。在本县居民总数不多的情况下,老王的年龄数值可能对均值变化产生很大的影响。

这需要为量值数据表更详细地定义敏感单元格,哪些单元有更高的线性灵敏度,即更容易受到新加入记录的影响。 在量级数据表中,隐私保护的核心是要确保数据用户不能使用已发布的总数和其他公开可用的数据来过于接近地估计受访者的价值。 比如该区域原有居民100人,平均年龄40岁,老王迁入后,平均年龄统计变成了41,就能推算出老王才是那个百岁老人。

幅度数据做统计时,可以使用的隐私增强技术包括单元抑制(既然这个属性太敏感,命中人数又不多,不如直接去掉), 以及噪音添加。后者通过差分隐私技术在2020年美国人口普查中大放异彩,我们后续单独出一篇文章具体讨论。


参考资料:

1. CIPT官方教程 - 《An Introduction to Privacy for Technology Professionals》

2. Checklist on Disclosure Potential of Proposed Data Releases - 联邦统计方法委员会

相关文章

  • CIPT考点解析-量级数据&频率计数数据

    在教材第四章介绍使用数据统计来实现匿名化时,介绍了两个名词“frequency data”和“magnitude ...

  • SQLite

    什么是SQLite数据库特色:①轻量级②独立③隔离④跨平台⑤多语言接口⑥安全性如何和数据库打交道①如何设计数据库与...

  • 网络02

    JSON数据解析: JSON的简单介绍:什么是JSONJSON以一种轻量级的数据格式,一般用来数据交互服务器返回给...

  • 数据结构与算法——计数排序、桶排序、基数排序

    数据结构与算法——计数排序、桶排序、基数排序 计数排序 计数排序有如下四个步骤。 首先会对每个输入进行频率统计,得...

  • 【Excel系列】Excel数据分析:直方图

    1. 直方图的功能 “直方图”分析工具可计算数据单元格区域和数据接收区间的单个和累积频率。此工具可用于统计数据集中...

  • iOS-JSON数据解格式

    json数据解析 json的概念 JSON(JavaScript Object Notation)是一种轻量级的数...

  • 2018-08-11

    Add: 常见考点: #数据考点 #绝对考点 #相对考点 #否定考点 #因果考点 ^_^识别: ^_^陷阱: ^_...

  • 2018-08-11强化阅读

    Add: 常见考点: #数据考点 #绝对考点 #相对考点 #否定考点 #因果考点 ^_^识别: ^_^陷阱: ^_...

  • JSON与OC直接互相转换

    1.0 JSON解析 1.1 JSON简单介绍 答: (1)JSON是一种轻量级的数据格式,一般用于数据交互 (2...

  • 重点 (十) : JSON和XML

    JSON JSON和XML都是需要解析的 JSON是一种轻量级的数据格式,一般用于数据交互服务器返回给客户端的数据...

网友评论

    本文标题:CIPT考点解析-量级数据&频率计数数据

    本文链接:https://www.haomeiwen.com/subject/ntfxldtx.html