什么是Census
Census是指人口普查,一种用于收集关于人口、住房、就业和经济等方面信息的全国性调查,在美国它是由商务部下属的人口普查局(US Census Bureau)负责执行的。自1790年第一次人口普查以来,美国的Census每隔十年进行一次,已经进行了23次,每次普查都收集了海量的数据,包括人口、家庭、住房、教育、收入、就业、种族和民族等各种方面的信息,用于帮助政府和社会各界可以更好地了解国家的人口、社会和经济情况
人口普查局会利用如下方式来进行数据采集:
1) 地图制作:在Census开始前,人口普查局会制作一张全国地图,并将其分成小区,以便确定每个小区的边界和人口数量。这些小区称为Census Tracts。
2) 发送调查表:然后人口普查局会向每个家庭邮寄调查表。调查表通常包括有关家庭成员、住房条件、收入、就业和其他相关信息的问题。
3) 进行电话和面访:如果家庭未能回复调查表,人口普查局可能会通过电话或面访的方式收集数据。面访通常由训练有素的人口普查员进行。
4) 数据收集和整理:人口普查局收集数据后,会对其进行整理和处理。这包括检查数据的完整性和准确性,对数据进行分类和编码,以及将其存储在计算机系统中。
Census收集的数据字段包括人口数量、年龄、性别、种族和民族、婚姻状况、家庭结构、教育程度、收入、就业情况、住房条件、迁移情况等等。这些数据对于了解美国的人口、社会和经济状况非常重要,并被广泛用于政府政策制定、社会研究和商业决策等方面。
Census数据在美国是公开可用的,人口普查局完成收集和处理后,会将Census数据以多种形式发布。以下是公众获取Census数据的常见方式,链接我就不提供了,有兴趣的可以自己搜索:
1) American FactFinder:这是一个免费的在线工具,允许用户访问和下载Census数据。用户可以在该工具中输入他们感兴趣的主题或地理位置,并通过各种方式浏览和搜索数据。
2) Census Bureau API:它是免费的Web服务,允许开发人员使用API自动化获取和处理数据。
3) Census Bureau FTP:它允许用户以ZIP文件的形式下载Census数据。用户可以在该站点上按照地理位置或主题进行浏览和下载数据。
4) Census Bureau Data Visualization Gallery:这是一个在线工具,展示了人口普查局发布的各种数据可视化和地图。用户可以在该工具中探索和发现有关美国人口、社会和经济的各种数据。
Census的隐私挑战
Census项目一方面大规模收集个人敏感信息,如个人身份、地址、家庭成员、收入等;同时还要公开分享数据集支持数据有效利用,可想而知隐私保护一直都是它最大的挑战。在过去的几十年中,人口普查局采用了许多不同的数据保护技术,以确保发布数据的隐私和安全。
1) 从20世纪60年代开始,使用数据抑制处理有关个人身份的信息,如姓名和地址,在数据发布时都会被删除,仅在统计数据中保留一些基本信息,用于保护个人隐私。
2) 在70年代和80年代,开始使用加密/假名化技术来保护Census数据的隐私。该技术涉及将数据转换为一些不可读的代码,并需使用密钥来解密原始数据。
3) 在20世纪90年代,开始使用数据扰动添加噪音的方式来保护个人隐私。例如:将某些家庭的记录与附近地区具有相似特征的家庭的记录交换(Data Swapping),从而在数据中注入“噪音”。该类技术会在Census数据中引入一些随机误差,以便个人无法被准确识别。
2018年,人口普查局基于2010年普查发布的公开数据做了一次模拟数据重建攻击实验。他们首先重建出3.08亿人的基本信息(居住区域、性别、年龄,种族和民族)。然后将这些重建后的记录拿来和外部可购买到的商业数据库中的个人信息进行匹配,找到了1.38亿个匹配结果,并最终正确地重识别出5200万个自然人,占到了美国总人口的17%。这个结果是让人震惊的,它代表着即使人口普查局应用了各种技术手段来保护隐私,还是有近两成的个人信息可能被完全泄漏。
所以在2020年的人口普查中,普查局决定引入一种基于差分隐私的数据避免披露框架。
差分隐私在Census的应用
差分隐私的目标是掩盖个人信息在某个数据集中的存在或不存在,但同时又保证数据集在统计层面的有效性。差分隐私还有一个重要优势是它可以量化披露风险的级别。
图1-差分隐私示意图差分隐私的原理和实现逻辑我们在本文中不进行详细介绍,可查看这里的扩展阅读。它作为一个框架,能实现无论数据集中是否包含某个特定自然人,它的任何数据分析的结果几乎都是相同的,从而实现对自然人机密信息的保护。
与人口普查局之前使用的数据保护方法相比,差分隐私具有一些明显的优势:
1) 差分隐私允许人口普查局对发布的数据集进行跟踪和解决潜在的隐私损失。
2) 差分隐私处理后的数据可以发布、分析并链接到其他数据,而不会增加任何泄露风险; 一旦数据被处理,无论数据如何使用,都不会再有隐私损失。
3) 差分隐私提供数学上可证明的隐私保证以防止潜在隐私攻击。
4) 差分隐私是透明的,不同于之前的数据保护方法,如数据交换。 差分隐私的编程代码和决策对公众开放; 唯一未公布的信息是添加到给定数据点的噪声的确切值。
人口普查局在2020使用的数据保护方法有两个部分:差分隐私算法和后处理,差分隐私算法给数据增加了噪声,而后处理增强一致性。两者被整合到一个称为自上而下算法 (TDA-TopDown Algorism) 的框架内。
1-数据准备
首先人口普查局为 2020 年人口普查重新分配数据文件编制了一份交叉表,该表反映了每个地理层级(从国家层面到州,再到最低层级的人口普查区)的所有变量。在已发布的重新划分数据文件中,人口特征有 252 种可能的种族、民族和年龄组合(63 x 2 x 2 = 252)。住房特征包含了八种居住类型(住房单元加七种集体宿舍类型)和两种居住状态类别,构成每个地理单元的有262(252 + 8 + 2)个不同的已发布数据类型。
表 1 - 数据分类为了生成这些已发布的数据,TDA 使用了一个更详细的交叉表,将 252 个种族、族裔和年龄类别与八个居住类别(住在一个住房单元和七个集体宿舍类型)相结合,得到 2,016(252 x 8) 每个地理单元的不同数据元素。
2-添加噪音
2020 年人口普查中大约有 800 万个人口普查区(block)——这是最小地理区域。 每个区都有 2,016 个数据元素,这意味着 TDA 中的人有超过 160 亿个数据单元。 为每个数据单元提供高度准确的信息会带来隐私泄漏风险; 因此,添加了噪音以保护个体受访者的数据机密性。 向数据添加噪声意味着对于任何给定的数据统计值,TDA 可能会在计数中添加或减去少量数据以掩盖原始值。
引入的噪音水平由“隐私损失预算”控制——该预算定义了可能发生的隐私损失的绝对上限。 隐私损失预算可以设置得更高或更低,随着隐私损失预算的增加,噪声减少(抽取的随机噪声数中有更大可能性为零或接近于零),这意味着数据将更加准确,但攻击者重建数据用于重新识别自然人的可能性也上升。
这种隐私损失预算可以设置在从“无准确性但高保护”到“高精度但无保护”范围内的任何位置。 选择隐私损失预算是一项基于准确性和保密性之间平衡的决策,它必须同时考虑到人口普查局的法律义务和数据使用者对数据效用的需求。 预算越低,保护越高,每个数据点的精确度就越低。同时,总的隐私损失预算必须在人口特征、住房特征和地理级别之间进行分配。
整体隐私损失预算必须分配给所有已发布的人口普查产品(表格和微数据)。花费一些预算来提高数据的某个维度的准确性(例如更准确的街区总人口计数)可能意味着在另一个维度(例如种族细节)的准确性上有更少的预算。
如上所示的表单中演示了如何将噪音添加到一个由5个人口普查区组成的数据表。这里展示的是第一步,将噪音独立添加到各个单元格中。在TDA中,添加到任意单元格的噪音都是随机抽取的,与该单元格所代表的人口规模没有关系。也就是说两个分别有十万人和一千人的人口调查区,统计数值增加5的可能性是相同的,这代表着绝对误差相同。所以有着较少人口数的调查区会有更高的相对误差,这有利于降低小群体的重识别风险。同时,我们为每个单元格的每个特征独立添加了噪声,这将导致逻辑上的不一致。比如总人口数和分项统计的人口总数不一致。
在实际的噪音生成过程中,人口普查局是通过地理层级嵌套(国家—州—县—tract区—街区—block人口普查区)的方式来进行的。TDA使用差分隐私机制先在国家层级创建一个新的注入噪声的数据集,然后再对州这个级别重复该过程,同时利用优化程序确保人口和住房特征的在各个分类的总数和先前国家层面的统计数据一致。这个过程持续重复到最低一个层级 - 人口普查区。
3-后处理
差分隐私的噪声注入提供了可量化和可证明的隐私保证,这个保证反映为全局隐私损失预算及其在每个统计数值上的分配。它也可以被看作是对自然人的一个承诺,即攻击者通过重识别带来的风险是有一个上限值的。
因为一些特殊国情,TDA部分背离了传统的差分隐私框架,它的数据中包含了某些不变量—即不会添加任何噪音的特征数据。比如:
1)每个州的总人数(它会被用于重新分配美国众议院在各州的席位数量);
2)每个人口普查区的住房单元总数;
3)每个人口普查区中被占用的团体宿舍设施数量(大学,护理机构,军营,惩教设施等);
不变量的使用会削弱差分隐私的保护强度,这里我们不做展开讨论。
除此之外,TDA还有一些预定义的全局约束,用于解决数据的不一致问题,它们适用于所有的地理层级:
1)人口和住房数量必须为整数且不得为负数。
2)表格中各单元格的值相加应该等于单项统计总数,而行或者列的总数统计应等于表格中的总人数。
3)对于指定的统计范围,计数值应该在同一表内以及不同表之间保持一致。例如,按种族划分的人口总和必须等于总人口,已占用和空置住房单元的数量总和必须等于住房单元总数,州内每个县的人口总和必须等于该州的总人口 .
4)如果某个地理区域中的住宅和集体宿舍 (GQ) 设施为零,则不得向该地理区域分配人员。
5)每个 GQ 设施的人数大于或等于 1。
6)每个住宅或集体宿舍的人数小于或等于99,999。
基于如上条件,TDA会对数据进行后处理,以满足规范。
上表是基于数据后处理的一个实际例子。首先,第四区中成年人人数的 –1 被调整为非负数。 然后是一些不一致的问题,例如原来第五区总人数小于成年人人数的问题也得到了解决。 最后调整噪声特征以匹配所有相关地理区域的总噪声人口。 在此示例中,初始噪声块总数总和为 257,但必须调整为 254。
4-未解决的数据问题
后处理步骤可能会引入偏差,例如在删除负值或对结果数据施加其他约束时。 TDA中这个框架的一个关键特征是统计数据的准确性和可靠性会随着被测量的基础人口的增加而增加。因为它使用所谓的多通道后处理(multi-pass postprocessing)。首先处理国家层面的数据,然后是州层面,一层层往下。每层处理时会首先求解该地理层面内每个单位的人口数量(例如,州内每个县的人口或县内每个人口普查区的人口), 接下来,该算法基于确定的人口总数来求解其他特征的各类统计数据。
当然噪声注入不可避免的会在发布的数据集中产生一些违反常识的结果。 例如:
• 一个街区只有一个住宅但有几十个人。
• 一个街区有18 岁以下的儿童居住,但没有成年人。
• 一个街区有人居住,但所有住宅都显示为空置。
这些不合理的统计结果通常发生在人口数较少的统计层级中。 数据用户会发现,随着数据聚集到更大的地理区域,这类结果出现的频率会降低,而估计的准确性会提高。 这个问题目前并没有好的方法来避免,因此人口普查局的建议对于许多用例,例如详细的住房或家庭人口分析,最低层级的数据可能噪音太大,希望数据用户将数据组合到人口较多的地理区域,这样可以减少差分隐私噪音对数据统计结果的正确性干扰。
5-隐私预算值
为了达到特定的隐私保护级别,隐私损失预算(PLB)可以象表盘一样调整,它会影响的随机噪声的范围分布。 更高的 PLB 值意味着更高的数据准确性和更少的私密性。 随着 PLB(ε - epsilon)上升,添加到任何给定单元格的噪声越来越有可能为零。 而较低的 PLB 值意味着较低的准确性以及更多的保护,因为噪声分布从零开始扩散,并且越来越多的噪声被添加到单元格中。 在最极端的情况下,零PLB 将体现为100%的噪声,而无穷大的 PLB 值将反映完全的准确性,数据不含任何噪音。
隐私损失预算并不是影响分布形状的唯一因素。 分布类型(如拉普拉斯分布、几何分布或高斯分布)也有影响。 在“纯”差分隐私中,最常用的统计分布(例如拉普拉斯)允许存在相当大的“异常值”——添加的噪声量异常大(远离 0 或 ±1)的地方。
就十年一次的人口普查数据而言,机密性问题需要与数据的准确性相平衡,向某些单元格添加大量噪声可能会损害数据的适用性。 为了解决这个问题,美国人口普查局选择基于不同的统计分布(离散高斯)实施零集中差分隐私(zCDP)框架。 这种转变意味着,对于相同级别的隐私损失预算,zCDP 注入异常大量噪声的可能性低于纯差分隐私。
对于 2020 年人口普查的数据文件,隐私损失预算的分配如下所示,总的隐私损失预算 ε = 17.44。
预算按地理层级划分,每个层级得到总额的一小部分:国家为 104/4,099; 各州 1,440/4,099; 县 447/4,099; 687/4,099 单张; 优化块组为 1,256/4,099; 块为 165/4,099。
图2 - 隐私预算分布情况以上就是美国人口普查中对差分隐私使用的一个大致介绍,我们可以看到通过改进的处理方法设计和较高的隐私损失预算,TDA提供了可靠的隐私保护和足够的数据效用,可以供我们在类似数据集开放场景下参考。
参考资料:
Disclosure Avoidance for the 2020 Census:An Introduction - 美国人口普查局
Private Numbers in Public Policy: Census, Differential Privacy, and Redistricting - Aloni Cohen, Moon Duchin, JN Matthews, Bhushan Suwal.
网友评论