Privacy by Design的七大原则中有一点是要实现数据的全生命周期保护,那什么是数据生命周期呢?在CIPT教材中,它分为五个阶段: 数据采集 -- 数据处理 -- 数据存储 -- 数据披露 -- 数据销毁。
数据采集
指的是数据产生以及数据更新的阶段, 既包括内部系统生成的数据,也包括从外部采集的数据。在数据采集阶段,最大的隐私风险是违反个人数据获取的合法,正当与必要原则。所以在收集用户个人数据前,需要验证数据处理的目的与数据采集范围是否一致;是否满足数据最小化原则,只收集必要范围内的数据;同时在执行任何个人数据采集动作前,告知用户并获得用户的明示同意。在我们设计新的系统或新的业务流程前,执行DPIA能帮助正确识别该类风险。
同时数据采集后,通常需要传输回组织内部,数据传输过程中的隐私泄露风险需要有合适的控制措施。TLS和PKI能为个人数据的传输提供安全保护,如果是高度敏感数据,可以使用VPN等安全通信信道保护机制。
数据采集阶段还需要数据分级分类机制,根据数据的敏感度和价值,为不同的数据元素打上敏感级别与类型标签。在后续的数据处理/存储/披露和销毁阶段,我们可以通过这些标签为不同数据元素正确选择合适的保护手段。
数据处理
指的是组织内部对数据的计算与加工。 在处理过程中,发生可能性最高的隐私风险是超范围处理,即数据处理的方式和用途超过了用户同意的范围。比如说,在未明确告知用户的情况下,将采集回的用户网站访问行为和其他数据进行汇聚(aggregation),把用户以为的匿名访问行为关联上用户的实名信息,构建所谓的用户全链路行为分析。如果组织内部有构建全面的数据清单和Consent Management,可以通过DPIA发现和识别这类对数据二次使用的行为,避免风险发生。
数据处理过程中,也存在个人数据泄露风险,根据不同的数据处理目的,事先对个人数据进行去标识化或者是处理过程中使用隐私计算技术,能降低泄漏风险方式的可能性。
另外一种情况是,如果我们能将个人数据处理任务在用户侧完成,只将处理后的匿名信息发送回系统,可以显著降低隐私风险,也满足数据最小化原则。或者是在用户侧使用本地差分隐私技术进行数据干扰,减少个人数据的可识别性。Google和Apple在这方面都有成功的落地案例,请见差分隐私介绍。
数据存储
以电子或其他形式对数据进行物理存储的阶段,存储技术包括数据库,文件系统,对象存储等。
数据存储阶段需要使用加密技术对个人数据进行保护防止泄漏,数据加密的保护程度依赖于算法的安全性,密钥长度以及合适的密钥管理措施。除了常规的文件加密,还可以使用磁盘加密与数据库加密技术。
数据披露
指的是将数据分享给组织内部或外部进行使用的阶段。我们又可以将数据披露分为用户直接访问与复制分发两种方式。
针对用户直接访问,需要使用合适的访问控制措施,在遵循知其所需(Need to Know)和职责分离原则下为严格控制用户对个人数据的访问。如果是通过复制分发的方式将个人数据发布给内外部用户,需要首先考虑数据匿名化或去标识化,降低数据泄漏发生后的影响程度。
数据销毁
它是使数据彻底消失且无法通过任何手段恢复的过程。
首先,组织需要制定数据保存策略,保证收集的个人数据在处理目的完成后,或用户提出删除需求后,可以及时有效的完成数据销毁工作,并进行记录。
同时,根据数据的不同敏感程度,需要选择安全的数据清除手段,防止隐私数据被复原导致隐私泄露。
如果技术原因限制导致我们无法按照要求完成数据清除(比如数据已经备份进入磁带,单独删除其中部分记录成本过高), 那可选的方式是做好记录,对该数据进行严格访问限制,确保要删除的数据除了该存储外,不会被用户其他任何目的。
网友评论