大数据折射算法“歧视”？王思聪微博抽奖113位，仅有一位男性

作者: 玩大数据的小轩 | 来源:发表于2018-11-24 11:45 被阅读12次

大数据折射算法“歧视”？王思聪微博抽奖113位，仅有一位男性
你知道吗？微博抽奖有性别歧视
商业思维 | 王思聪血赚！
微博平台抽奖事件：商业算法还是歧视男性？
王思聪113万赢2000万粉丝，爆款抽奖活动的3个核心逻辑
微博抽奖，关于王思聪抽奖113W，规则筛选不能算作弊！
如果我像王思聪一样有钱
王思聪微博头像换成花千芳：触法的玩笑绝对不可任性！
心疼王校长：刚被策划坑完，转身就又被某平台狠狠地坑了一把！
2018年的第一波热潮“直播答题”吹响了号角，大佬们纷纷撒币推波

IG夺冠的喜讯让互联网沸腾，玩家们奔走相告，竞相庆祝。作为IG战队老板的王思聪随即在微博抽奖，随机抽113位用户每人发放一万元现金为奖励。

可是抽奖结果出乎意料，获奖名单中有112名女性获奖者和1名男性获奖者，女性获奖者比率是男性的112倍；然而根据官方数据显示，在本次抽奖中，所有参与用户的男女比率是1：1.2，性别比并不存在悬殊差异。

（获奖者名单，来源自微博@夜的咖啡）

于是不少网友开始质疑微博的抽奖算法，甚至有用户主动测试抽奖算法，将获奖人数设置大于参与人数，发现依然有大量用户无法获奖。

这些无法获奖的用户很有可能已经被抽奖算法判断为“机器人”，在未来的任何抽奖活动中都可能都没有了中奖的机会。网友们纷纷开始测算自己是否为“垃圾用户”，微博的“算法事件”一时满城风雨。

这已经不是第一次人们质疑算法背后的“公正性”。在大数据时代，人类会有越来越多的利益分配和大数据直接相关；谁都不想在求职中被大数据自动判断为“缺乏竞争力的求职者”或者在法庭审判上被大数据抓进监狱。

然而事实却是，在算法决策的“黑匣子”面前，人类无法了解到算法的决策过程，而只能够了解到结果。

纵观近几年，众多科技公司的算法都被检测出歧视，谷歌的搜索算法将黑人标记为“大猩猩”；微软公司的人工智能聊天机器人Tay出乎意料的被“教”成了一个集反犹太人、性别歧视、种族歧视等于一身的“不良少女”……这些事件都引起了轩然大波，并且最终也导致了算法被叫停。

为什么大数据算法会歧视？上梁不正下梁歪

在计算机领域，有一句非常有名的缩写是GIGO（Garbage in, Garbage Out），翻译过来就是说，输入的如果是垃圾数据，那么输出的也将会是垃圾数据。而在大数据领域也有类似的说法，《自然》杂志曾用BIBO表示Bias In, Bias Out，也就是说偏见进，偏见出。

大数据可以理解成是社会的明镜，能够折射出人类社会中意识到的和没意识到的偏见；如果整个社会对某少数族裔或者性别有偏见，那么大数据也将在结果中展现出这种偏见。

亚马逊公司曾经在2014年开发了一套“算法筛选系统”来帮助亚马逊在招聘的时候筛选简历，开发小组开发出了500个模型，同时教算法识别50000个曾经在简历中出现的术语让算法学习在不同能力分配的权重，但是久而久之，开发团队发现算法对男性应聘者有着明显的偏好，当算法识别出“女性”（women and women’s）相关词汇的时候，便会给简历相对较低的分数，比如，女子足球俱乐部等；算法甚至会直接给来自于两所女校的学生降级。

这个算法最终被路透社曝光，而亚马逊公司也停止了算法的开发和使用，但是为什么看似人畜无害的算法会变坏呢？

亚马逊全球员工构成

通过上图不难发现，亚马逊公司的整体员工构成以男性为主，而从路透社整理的自2017年起这些公司公布的数据中得知，像谷歌、苹果、微软、Facebook这些公司，整体上男性占了2/3，而单独挑出技术岗位，男性比例则达到了将近4/5。

亚马逊用来训练算法的“老师（简历数据）”本身就带有很强的性别偏好，而年幼无知的算法则只能邯郸学步，从以往的简历数据学习，自然而然就学到了这个偏好，算法清楚的将互联网产业的性别偏好摆在了台面上。

也就是说，算法的歧视是从人类社会学来的。

数据不够，没法凑

现行算法中很难存在绝对公平。

众所周知的是，当算法学习的数据量越大时，算法的错误会越少，而且结果会越趋向于精准。就算人类能够开发出一套筛选系统排除带偏见的数据，将不带偏见的数据输入算法中给算法学习，算法也无法达到绝对公平。

因为非主流总是拥有更少的数据，而主流永远拥有更多的数据；所以当两套算法相比较的时候，数据少的一方的错误会更多，而数据多的一方错误会更少，久而久之，两套算法之间的还是会拉开差距。

举个例子，如果你加入IG，同时训练两款游戏，CS1.6和英雄联盟，而你在此之前从没有涉猎过相似的游戏。在加入训练之后，每天让你在完全相同的心理和生理状态下玩3个小时的CS1.6和3个小时的英雄联盟，剩下的时间吃饭睡觉，如果其他条件相同的情况下，你玩这两个游戏的水平应该是以相同的速度稳步提升。

但是实际情况是，CS1.6这款游戏已经过时，玩CS1.6的人很少，你只能通过和少数玩家一起对战，在对战中提升水平，学习到的地图枪法相对固定，无法准确的衡量自己的水平提高的程度，并且玩家数量的缺乏让你的水平在有限范围内提高，容易达到瓶颈。

但英雄联盟就不同，它是一款非常火爆的游戏，每天有无数的玩家能够和你对战，在每次对战中你都能够学到最新的战法，对英雄的熟练程度稳步提高，并且足够数量的玩家能够形成训练梯队，在对战中能够你能够清楚的了解到自己的水平提升情况；而且永远能够遇到比自己强的玩家。久而久之，虽然每天都是花相同的时间玩两款游戏，但是水平却会产生巨大的差距。

现行算法中没有任何算法的准确率和公正率是百分之百的，这是一个算法学习领域暂时还未能解决的问题。

在不远的未来可能有依靠少量数据学习的算法，但是当算法被应用到现实中的时候，算法还是有可能会根据实际情况调整偏好，倾向于主流人群。

不能向“算法歧视”低头，公平是每个人的事

不公平的算法带来的歧视是无形、不易察觉而又影响深远的，这种歧视影响到算法控制的所有领域。

如果不是本次悬殊的抽奖比率的差距，很少有人会意识到自己已经被划归为机器人，而被标记为机器人之后，少数群体也就被算法完全孤立了，在一个本来可以广泛参与的社交软件中，少数群体成为了旁观者，所有的抽奖活动都与他们无关，而且他们不知道如何消除自己身上的标签，久而久之，如果没有人关注并且发声，少数群体只能选择离开这个平台。

关于如何解决算法歧视问题，科技界众说纷纭，有人曾提出算法要公正透明，能够让公众监督算法，但是算法不属于每一个人都有能力和愿意去监督的，它有其专业性的壁垒。现在已经有不少的科学家在努力开发出一套“公平公正”的算法系统，算法的未来可期。

然而不容置疑的是科技公司以及组织不应该将“带有明显歧视性质的算法”在不经测试之下应用到现实情景中。

如果要将算法应用到更广泛的领域，就需要根据各行各业的情况定制算法并且对不同情况下的公平进行合理的定义，以保证人类社会中的法律规则、制度以及司法决策行为受到程序正义（Procedural Justice）和正当程序约束。

而在未来的算法开发过程中应该对算法开发者进行适当的“算法伦理”教育，并且确定一些算法的“基本准则”，如同“机器人永不能伤害人类一样”。

我自己是一名大数据架构师，目前辞职在做线上教育大数据讲师，每天都会直播分享免费公开课，大家可以加群参加。以及我自己整理了一套最新的大数据学习系统教程，包括Hadoop，数据挖掘，数据分析。送给正在学习大数据的小伙伴！这里是大数据学习者聚集地，欢迎初学和进阶中的小伙伴！加QQ群：584900118

大数据折射算法“歧视”？王思聪微博抽奖113位，仅有一位男性
IG夺冠的喜讯让互联网沸腾，玩家们奔走相告，竞相庆祝。作为IG战队老板的王思聪随即在微博抽奖，随机抽113位用户每...
你知道吗？微博抽奖有性别歧视
你知道吗？抽奖还有性别歧视相信大家还没有忘记国民老公王思聪。2018年，IG夺冠，王思聪在微博发布了抽奖活动。但...
商业思维 | 王思聪血赚！
聪明的人是怎样做营销的？就拿这两天很火的ig夺冠，王思聪微博抽奖的例子来说吧就在昨天王思聪在微上说要发四波红...
微博平台抽奖事件：商业算法还是歧视男性？
IG夺冠之际，LOL粉丝们正在整个社交平台欢呼庆祝-朋友圈刷屏；而微博平台的商业算法带来的抽奖结果，点燃了LOL英...
王思聪113万赢2000万粉丝，爆款抽奖活动的3个核心逻辑
题图来自pixabay.com，个人基于cco协议使用王思聪一条抽奖微博获得2100万转发，个人微博涨粉2000...
微博抽奖，关于王思聪抽奖113W，规则筛选不能算作弊！
▍作者：岳刚那些在双十一之前默默等待，想着自己是王思聪微博抽奖113位其中的一万元时候，微博跟你们开了一次玩笑，...
如果我像王思聪一样有钱
睡前刷刷微博热搜，王思聪提名百大帅脸的热度还没过去，作为顶级流量又双叒叕上热搜了。王思聪在微博之夜上台颁奖嚼口香...
王思聪微博头像换成花千芳：触法的玩笑绝对不可任性！
近日，微博上王思聪和花千芳因学英语观点引发的网络骂战，原以为王思聪删博后即告一段落，不想，3月20日，王思聪却将微...
心疼王校长：刚被策划坑完，转身就又被某平台狠狠地坑了一把！
前段时间，针对王思聪抽奖活动（获奖113人，112人为女性）的质疑，微博CEO王高飞回复称：重点不在于性别，而在于...
2018年的第一波热潮“直播答题”吹响了号角，大佬们纷纷撒币推波
王思聪微博发文初引直播答题从1月3日王思聪微博发文“我撒币，我乐意”将《冲顶大会》宣传开来，相继《百万英雄》、映...