美文网首页
剑桥分析“滥用”Facebook的泄露数据只是一个必然

剑桥分析“滥用”Facebook的泄露数据只是一个必然

作者: 大本说数 | 来源:发表于2018-04-01 14:46 被阅读20次

    这一周Facebook的估价下跌了13%,百亿美元的市值就这么蒸发掉了。

    引用一下媒体的报道:

    据《纽约时报》和《伦敦观察员》上周六的报道称,Cambridge Analytica(剑桥分析)从2014年开始通过欺骗用户和Facebook的方式收集数据,总共获得了5000万Facebook用户的个人数据。

    根据告密者克里斯托夫·维利的指控,Cambridge Analytica在2016年美国总统大选前获得了5000万名Facebook用户的数据。这些数据最初由亚历山大·科根通过一款名为“this is your digital life”的心理测试应用程序收集。通过这款应用,Cambridge Analytica不仅从接受科根性格测试的用户处收集信息,还获得了他们好友的资料,涉及数千万用户的数据。能参与科根研究的Facebook用户必须拥有约185名好友,因此覆盖的Facebook用户总数达到5000万人。

    这家公司的业务,涉及到一个很有意思的人Michal Kosinski,一位组织行为学学者,他在2014年获得博士学位,在斯坦福大学和剑桥大学都任过教职。他的研究领域在于使用网络数据去研究人的心理和行为。

    结合最近几年互联网的发展和大数据应用的风潮,Kosinski作为学者可以说是非常时髦。

    如果对于他过往的研究作品没有太多印象,他最近还用深度学习发表过另一篇极有争议的论文《在通过面部照片判断个人性取向的问题上,深度神经网络比人类更准确》(Deep neural networks are more accurate than humans at detecting sexual orientation from facial images)

    Kosinski在2012年使用Facebook的点赞数据建立了一个心理学侧写模型(注1),模型通过用户对什么事情点赞去学习他的性格。数据量级达到一定程度,大约70个点赞以后,模型对于用户五型人格的判断上有比一般人更高的性能。

    这就是剑桥分析的理论依据:他们认为人类通过人格特质对事物的判断行事,因此基于Facebook数据对用户的性格建模,并据此进行对应的媒体信息投放,影响用户的信息接收和判断。

    这看起来比传统的根据人口地理学特征去进行投放要更科学,毕竟我们都知道广东人爱吃福建人只是无稽之谈。

    是这样吗?我们看一下Kosinski的模型:


    Kosinski的建模.png

    用户-物品矩阵,奇异值分解,线性回归,很经典的计量方法,对于数据从业者来说都是相当熟悉的名词。这不是什么高深的技术,一个懂得使用python的本科生,对着文档敲代码,几个小时就能复制出这个模型。在2017年,企业如果不提深度学习这个词,都不敢说自己是大数据公司。

    我是个单身狗,但是微信朋友圈会给我推送女士香水的广告。我买的猫粮都收货确认了,淘宝过了两个月都还一直给我推送猫粮店铺。精准投放这件事本来就没那么精准。

    说回剑桥分析这件事,剑桥分析获得的其实只有27万用户的数据,只是通过每个用户至少要拥有185名好友,达到“最多5000万人”的覆盖范围。说他影响了美国大选,基本上只是自己的公关说辞罢了。

    这件事其实最有意思的事情,在于剑桥分析钻了“授权”的漏洞。

    当时的Facebook对用户数据授权并没有很严格的控制,剑桥分析通过伪装成学术研究网页的方式,获得用户授权后,进而获取了用户的历史消息、关联好友、互动行为等。说到底,其实是一个大型的爬虫。

    Facebook现在仍然允许获得授权的应用获取很多信息,只是集中于提供授权的用户信息,不至于连他好友的信息都能获取。从开发者文档看来,目前允许获取的数据仍然有相当的想象空间,如:

    1. 用户基本属性:基本资料如生日地域,一些一度好友关系;

    2. 用户活动:书籍、运动、点赞、发文;

    3. 用户创建的活动和管理的小组;

    老实说,我觉得Facebook真是厚道。换作国内的微博或微信或支付宝,给你获取用户名就不错了,怎么可能还让你能获取用户的推文?我再附上微博授权登录的开发者文档作为对比。

    Facebook的登录授权信息
    微博的登录授权信息

    大众对于这件Facebook数据被“滥用”的事件非常敏感,还发起了删除Facebook的活动。现实版的钢铁侠Elon Musk也响应了一下,删除了他的Facebook账号。

    但是坦白说,这其实不是什么新鲜事。不止我前面所说的Kosinski的五型人格模型其实大部分是经典方法,对公开数据的爬虫产业现在早已经非常发达。两三年前大数据这个词还很火的时候,网上随便搜索数据分析的入门文章,都是关于如何使用python进行爬虫。

    利用信息差通过公开数据赚美元的小众细分产品案例

    就如我之前写过的一篇文章所说,利用爬虫获取公开数据,通过信息差去赚钱,已经是很常见的生意。

    私人数据呢?

    不客气地说,国内大部分的大数据公司,其实都是在贩卖私人数据。我前面提到淘宝给我推送猫粮广告,但是我其实是在京东上买的猫粮,淘宝如何知道这件事?懂的人自然已经懂了。

    这是信息时代的人类的现实。信息技术的发展和应用不仅仅让我们能够获取更多的信息,我们自身也在成为信息。

    人类文明这几千年来的突飞猛进,与其说是生理上的进化,不如说是人类通过文字、宗教、国家这些架构来组织信息,使人类的智慧能够规模化进步,脱离个体基因演化客观上需要的时间局限。

    获得了计算机这个新的信息运算工具,又建立了互联网这种巨大的信息架构,未来人类的生活不可避免地会继续作用于信息和被信息反作用。

    而现在,公司这种灵活的组织得以在国家之前抢先适应时代,获取了大量的数据,而国内大型公司对于数据的获取和使用比美国的同行只会更过分。读者朋友们,你们都应该注意个人数据保护这件事。

    Facebook自己受益于信息时代得以诞生,它也是世界上第一家使用算法改变实时信息流的公司,通过广告获取了大量的收入。最终他也被他所拥有的数据所反噬。

    并非说这是一个坏时代,我们每个人都在有意无意,或被动或主动地散步自己的数据,这会获得类似推荐系统这样的方便,也会被人利用比如信息流上的操作。

    我们应该客观唯物地认知到这个事实。

    相关文章

      网友评论

          本文标题:剑桥分析“滥用”Facebook的泄露数据只是一个必然

          本文链接:https://www.haomeiwen.com/subject/cbaocftx.html