大数据七宗罪之技术包装的偏见

作者: 一水双关 | 来源:发表于2018-07-05 10:21 被阅读0次

大数据七宗罪之技术包装的偏见
2018.04.30
三大特性-封装【Java提高一】
Java--理解java的三大特性
「塑料包装袋」数码印刷与可变数据印刷
[Java基础]包装类型
javase part14 - 包装类和基本类型转换
JavaScript标准库系列——三大包装对象（四）
[7] Feature Envy(依恋情节)
基本类型的装箱与拆箱

说起偏见这个词，大多数人的直观感受是不怎么舒服的。但是在大数据包装之后，偏见这个词已然是变成了一个令人信服的词语。

我们知道，大数据的基础在于数据和模型，其中模型处于主导地位，能够从海量的数据中抽离出相对有用的部分，对外部环境进行抽象概括，从而得出结论指导现实。值得注意的是，模型的本性就是简单化，不可能囊括现实世界的复杂性或者人类交流的细微差别。在人的设置和干预下，有些信息不可避免地会被遗漏或突出，从而体现为偏见。这种偏见在大数据出现之前，是体现在过程之中，而大数据出现之后，偏见就提前埋伏在算法模型里了。因此，冰冷的计算机和数据化风险模型得出的结论，虽然看起来就是一副公正无私的样子，其实是把偏见隐藏在了更深的地方。

来看一个带有种族偏见的数据模型。长期以来，种族是美国审判的一个主要因素。研究表明，在休斯顿市，对于同样罪行的犯人，检察官判非裔美国人死刑的几率比白人高三倍，判西班牙裔美国人死刑的几率比白人高四倍。为改变这种情况，美国有24个州的法院采用了一种再犯模型，帮助法官评估每一个罪犯构成的危险，减少法官的情绪和偏见所带来的影响。其中，一个叫做LSI–R的普及模型应用最为广泛。这个模型要求罪犯填写冗长的问卷调查。比如“你之前犯罪次数是多少？”“其他人对这次犯罪起了多大的作用？毒品和酒精对于你犯罪起了多大作用？”等等。

这些问题看起来很正常，没毛病，但在实际操作中却存在问题。来自有特权背景的罪犯和来自治安差的平民街区的罪犯，答案肯定不一样。

比如，同样问“你第一次遭遇警察”的原因，在舒适郊区长大的罪犯也许会告诉你这是第一次入狱，而来自平民街区的年轻的黑人男性很可能已经被警察多次拦截，即使他们什么错事也没做。

研究报告显示，14-24岁的黑人男性和拉丁美洲男性仅占该市总人口的4.7%，但他们占被警察拦截盘查总人数的40.6%。而且，那些被盘查的人中90%多都是无辜的。然而根据模型统计，经常被拦截的嫌犯判分更高，更容易被模型分类为高风险等级，从而误导法官量刑。

更严重的是，罪犯还会被问到出生和成长的环境，他们的朋友和亲戚是否有过犯罪记录等等。事实上，法官应该对所做的事情进行审判，而不是对嫌犯的身份进行审判。这些细节不应该和刑事案件或者量刑相关。

然而，在LSI-R这样的数据模型下，原本身处底层社会的有色人种受到了更加严重的种族问题。“高风险”得分等级的人很可能是失业人员，而他的许多朋友和家人都触犯过法律。而且多年和一群罪犯关在一起，又增加了他再次犯罪的可能性。等他出狱时会回到同样的贫穷社区，有了犯罪记录，找工作就更难。如果他再犯罪，再犯模型又一次成功验证。事实上，正是这一模型导致了恶性循环，且一再地自行巩固。

面对真实现状，难道我们不应该质疑：我们是利用大数据彻底根除了人类偏见，还是只是用技术包装了人类偏见？答案其实就在眼前。