一、大数据时代的数据收集、分析
大数据之所以为”大“,有两个层面:其一、数据量大,海量数据;其二、分析规模大:由于数据种类繁多,需要详细甄别不同数据的相关性,只有在对尽可能多的数据类型进行分析后,才能有效地做出因果性推测。这其中还包括数据结构化、数据清理、建立模型、验证模型等数据处理步骤。所以,规模大,也可理解为工作量大,以及对软硬件的数量需求巨大。下面几段报告,就是基于这样一个技术现实。
1、个人数据层面
早期的电脑时代,就已经有个人信息数字化的过程,在这样的“批量处理”时期,数据库的概念已经形成。随着技术和概念的更新,越来越多的数据录入已经不是由专门的数据库机构进行录入,而是用户(个人)自行录入(或被动录入),如,数字电话记录、信用卡交易记录、银行账号记录等。用户录入这类数据的目的,一是需要某项基于网络的服务,而该服务需要用户的身份识别;二是用户有提升自我数据处理的动机,如,使用个人财务规划软件来计算每月开销、入账、应退税款等等。针对这一现象的隐私问题是,此类数据经常携带元数据(这里指用来识别个人身份的数据),而用户对于元数据的泄露处于无意识状态。个人数据可分为两类:
原生数字化数据,即,生来就是数字化的数据。如,电邮和短信信息、通过任何计算机设备的输入端键入的数据(电脑鼠标、键盘、手机键盘、ipad等)、GPS位置、电话通信中的元数据(如,拨出号码、本机号码、通话时长、周期)、手机开机的元数据(如,手机位置/服务区、手机信号状态、系统状态等)等等。这类数据中,被视为有利的,如消费者追踪数据。比较传统的手段是cookie(每次登陆网页,网站伺服器将会发送一个文件到你的电脑里,这个文件记录你在该网站的行为,你下次再登陆,该网站会先识别这个cookie,然后给你推送你可能需要的信息。最简单的例子就是你选择“下次自动登陆”,下次你就真的自动登录了)。再简单的说,盗取cookie就能盗取你的网络行为信息。除了cookie之外,还有别的手段,如“类指纹识别”手段,该手段收集尽可能多的信息类别,如用户设备的屏幕尺寸、安装的字体/语言、屏保等信息来识别客服身份进而追踪。那么对于隐私方面,原生数字化数据有什么隐忧呢?两点:1. 过度收集(你提供过多的信息给网络,其实只为了一个简单的登陆命令);2、便于数据融合(你这儿提供一个生日、那儿提供一个姓名、再什么地方提供一个你家人的姓名和生日,你的密码就有可能被算出来了)。数据融合是大数据时代隐私问题面临的大挑战之一。从法理定义上,单独的数据在合理目的和应用手段下是不违反个人隐私权益的,如匿名的医疗数据(以编号代替用户姓名、只记录年龄而非具体生日),但是外部数据,配合一定的算法就能识别用户身份。如,某人过去曾作手术,术后有某类特殊食品的消费记录,可通过对时间、病理类别、建议饮食等数据进行建模,来甄别个人。
原生模拟化数据,即,生来就是模拟的数据(与数字化相对)。也就是需要一些感应设备,将物理变化转换成数字信号的数据。如,打电话的谈话内容、视频聊天时的动作、个人健康数据(心率、呼吸、步态)、医疗镜像(CT、X光片)等。这类数据的特点是,数据噪点大(如你讲电话讲了很多废话,废话的内容也许不是监听者的监听目的),同时正因为“噪点”大,它的信息包含量也大,也就是那些噪点可能成为其他目的下的非噪点。这也是这一类型数据面临的隐私方面的挑战。而大数据的发展,又使得原生模拟化数据能够融合原生数字化数据,形成更多元和准确的数据库,用以突破个人隐私。
2、 数据分析层面
数据层面可能隐忧重重,同时也有来自分析层面的隐忧。因为拿到数据而没有经过分析,数据就可能还是数据,编号1527的病人割了阑尾,那就割了,没有分析,1527不会是你或者你家邻居。
数据挖掘:实际上只是数据分析中的一个环节。简言之,就是发现数据的规律并使其结构化。如,数据分类(医院对出院的病人按复发的可能性分类)、银行对贷款项目的违约可能性分类、或者对同一影片,找到其在豆瓣和IMBD上评分的相关性。但是数据挖掘本身的弊病要大于其带来的隐私问题。数据挖掘本身的弊病就是:1、相关性不足以支撑因果性;2、数据不干净(噪点大)或者算法不合理,得到的规律很有可能是错误的。
数据融合:数据分析的另一个环节。把异质的数据融合成更大的同质数据。随着越来越多的数据合并,突破个人隐私也就成为可能。
社交网络分析:严格的说,社交网络分析并不属于数据分析中纵向的步骤,而是横向的类别。但社交网络分析的特性在隐私顾虑中尤为明显,故此单列出来。社交网络分析有以下两个特点:1、特别容易进行身份识别;2、比较明显的第三方隐私泄露问题(也就是说,你出现在别人的照片里,或者别人出现在你的照片里)。
二、针对隐私问题的现有策略
1. 网络安全和隐私的关系
谈到隐私保护,第一层策略是要确保网络安全(笔者:一部分隐私问题源于数据和分析自身;一部分隐私问题则源于外部的非法接驳)。对于网络安全问题,应该思考以下的应用过程:
1)- 身份识别和认证:在问你是谁之后,确定你是你所说的谁。
2)- 授权:你被允许在数据库里做什么?被禁止做什么?
3)- 可用性: 网络攻击者能干扰授权功能吗?
4)- 保密性: 数据能被非授权端复制吗?
5)- 完整性: 数据能被非授权端更改吗?
6)- 接驳行为的可追溯性: 任何接驳行为能完整的记录吗?
任何一个好的网络安全体系,都应对上述应用做合理的架构。但要记住,网络安全和隐私的交集,仅仅是应对“恶意”。隐私问题,有超出“安全”与否的范畴。
2. 加密技术
笔者:加密的优点不多说了,目前来看是解决安全问题最合适的方式,但安全等于隐私吗?这需要进一步讨论,笔者会在下文,引述完PCAST的报告之后单独讨论。
3. 匿名化
如,用户姓名可用数字代替,用户地址可用系统区域编码代替。总之尽可能减少直接暴露个人隐私的数据。但是,正如前文所提到,匿名化如今已经不能保护隐私。根据多数据库融合,以及特定关联性算法来推演,识别用户身份已经不是难题。但是对匿名化策略的反思应该更多集中于立法层面。像部分法律,《家庭教育权利和隐私法》,就定义没有确定用户身份的数据不涉及隐私泄露。大多数法律并不与时俱进,缺少对关联行为的考虑。
....
三、来自PCAST的建议
在分析了大数据技术和相关环节的隐私问题之后,PCAST向白宫做出如下建议:
1. 政策和立法方向应该多关注大数据的用途,而非其数据收集和分析过程(笔者:这个是个相对精彩的法理推断,后详)。
2. 政策和立法的眼界应该不要固定在某种技术手段(如加密、匿名),而是放大到该手段的目的以及可能造成的后果(笔者:更多考量见下文)
3. 政府应该加强对隐私问题的研究,以适应不断更新的技术手段。例如自动隐私保护程序的开发。
4. 要加强隐私法理的教育。
5. 美国作为全球表率,应该带头推动隐私保护的技术以应用于大数据行业。(笔者:有先见之明)
四、笔者附言
还是回到苹果交不交数据密匙这个事。
库克跟FBI死磕,不愿交密匙。原因可能有三层:一、作为技术的开发者,对技术的投入都是成本极高,而目前加密技术的投入,并没有看到直接的利润。如果这个时候放手开后门,以后就有可能在数据交易这个领域失去话语权,从而错失利润机会。二、苹果的姿态:隐私属于用户,但我们的技术能够保证隐私的安全。我们及我们的加密技术,目前来看,是用户数据安全的代理人,也是用户隐私的守护人。三、为什么要相信政府是比我们商家更好的隐私守护人?
第一层从经济利益入手,比较浅薄。第二层可以开始纠结了:数据安全等于隐私保护吗?这个问题,PCAST的报告有过详细的论述。不过对于普通民众来说,好像更倾向于相信,数据安全等于隐私保护。这也是为什么PCAST强调要加强民众隐私保护的教育。那么数据安全和隐私保护是什么关系呢?形象的说,如果数据安全和隐私保护是两个圆圈,那么数据安全就是包含于隐私保护,比之略小的圆圈。也就是说,没有实现数据安全,就不能实现隐私保护;但,实现了数据安全,并不等于实现了隐私保护。这一点其实结合第三层原因来看,就会好懂很多,也就是第三层原因的反问:为什么要相信你们商家,不会因为利益而出售用户数据?
好了,现在谁也不相信谁。我们再来拟几个基本例子。
你每天都下楼到某个小卖部去买烟。小卖部门口每天都坐着一个李大爷。李大爷天天坐在小卖铺门口,就冲着进进出出的男女傻乐。李大爷每天都看到你来买烟、你楼上的妹子来买烟、楼下的妹子来买烟、隔壁的妹子来买烟。李大爷对你的行为有观测和收集。你发现这个事儿了,觉得不爽,你会不会去跟大爷说,我的行为是我的隐私,你观测了我的隐私,我要告你或者老头你给我钱?大概都不会吧。
大爷高能有心机哦。大爷记住了都是谁来买烟、买什么烟。大爷听说有人想知道这个小区都谁在买烟、买什么烟,还给钱,大爷就把他知道的事儿卖了。你会不会跑去跟大爷说,老头,钱你得分我点,要不我告你贩卖我的隐私?有人可能不会,也有人可能会。对于会的人,你管大爷要多少钱合适呢?或者换个问法,你要不要跟小卖部老板说,这烟10块,但你看到了我来买烟,看到妹子们来买烟,就有可能把这事儿卖了,所以你得给我钱。如果1/n的极限求和为1, 1/n的极限应该是多少呢?
如果大爷和老板问:谁让你到这买烟的?你会不会反问:我去哪买烟是我的事,但是你们就不该看,看了也不该记住,记住了也不该卖?
可能你对上述情况都默许了,看就看吧、卖就卖吧。但如果你是每天下楼买卫生纸,然后有人根据大爷的信息,推断你每天看多少动作片再给你推送不同的网红,你可能还是觉得推送网红这事儿挺好,但大爷这钱挣得有点不厚道?但是对于大爷来说,你买烟和买卫生纸跟他没关系,他只看见你来买了,记住了。如果有人买他记住的东西,那就卖喽。再来看推网红这边,如果推了货真价实的网红,让你身心愉悦,你可能不会说啥;如果推给你某姐,还骗了你账号密码,你是恨大爷,还是恨这推网红的?
例子到这里,可以回看一下PCAST给白宫的建议1和2:
政策和立法方向应该多关注大数据的用途,而非其数据收集和分析过程
政策和立法的眼界应该不要固定在某种技术手段(如加密、匿名),而是放大到该手段的目的以及可能造成的后果
这里还有另一种争议:去外面买东西这个事儿,算不算隐私?有人说它不是发生在自己家里,就不是隐私;有人说它属于可控个体行为,就是隐私。PCAST提出过隐私的边界变化的问题(见前文),所以对此没有给出结论,只提出建议3和4:
政府应该加强对隐私问题的研究,以适应不断更新的技术手段。例如自动隐私保护程序的开发。
要加强隐私法理的教育。
那么苹果和FBI之争更深层的法理辩论是什么呢?就是PCAST在一个终极场景中(见前文《报告总统 - 上》)提到的,公共利益(安全)和隐私权的平衡。总体来说,作为非商业、非政府的分析团队,PCAST对数据技术是持开放态度的,这也是联邦政府目前没有加强监管高科技互联网企业的原因。数据采集和分析被定义为中性,关键看目的。也就是为什么支持FBI者包括川普、比尔盖茨,希望苹果能够开后门,哪怕是临时,因为其目的,是为了捉拿罪犯,保障公共利益(安全)。而作为一个独立的企业,当苹果拥有密匙技术,他是有足够合理的姿态去强调两者中的隐私(在这里约等于数据安全)的。这两方面的博弈,会在今后越发频繁。
最后,李大爷靠收集小区民众的买卖信息,成立了企业,得到了风投,上市了,发了。大爷成为了万众敬仰的创业明星,各种小报朋友圈必转:李大爷谈成功、李大爷谈企业家精神、李大爷预判今年经济形势、李大爷说......等等。我们都怀着极大的热情欢迎一个草根创业家的出现,他代表了万众创业、大众创新的中国梦。这也是一部分已经成功的人的梦:在中国,创业!成功!然后移民。
移到哪里去呢?到那个会对隐私这个东西尊重、理解、煞费脑筋、唇枪舌战的地方:
作为全球表率,应该带头推动隐私保护的技术以应用于大数据行业。
网友评论