美文网首页
机器学习的公平性-算法的公平性

机器学习的公平性-算法的公平性

作者: 数据小新手 | 来源:发表于2020-03-01 18:36 被阅读0次

机器学习的公平性

本片文章主要让读者快速了解什么事机器学习的公平性以及提供一些对机器学习公平性感兴趣的参考文章

1.简介

机器学习的公平性问题在最近几年变得越来越受关注,很多著名的研究人员开始在这一领域有新的进展。

image-20200224192057916.png

在机器学习的公平性主要存在以下几种

  1. group fairness

  2. individual fairness

  3. Counterfactual fairness

  4. Preference-based fairness

  5. fairness through unawareness

image-20200301171101158.png

绿色: 竞争公平,简单来说就是不能根据每个人的属性来对其产生不同的对待。所有人应该有同样的机会被正确分类

黄色:自由公平

橘色:分布平等

本文主要讨论最常见的group fairness

2.动机

我们为什么关心公平性,主要动机是由于公平性和我们的自身利益高度相关。很多事情已经被机器学习系统直接接管。比如自动驾驶,简历筛选,犯罪预测,候选人排序,推荐系统等。机器学习系统已经变成我们生活的一部分。越来越多的AI产品将会融合到我们生活中。

AI技术主要是基于数据的,认为AI 绝对客观是不太正确的关系。人们给AI的数据可能是高度偏差的。偏差在机器学习中变得非常明显,而且会伤害到少数群体和历史上不利的组。如果没有人关心这些问题,那么下一个被偏见对待的很可能是我们自己。

在一些高风险的领域,如法官断案,药物检测,广告。确保决策系统不扩散历史数据中存在的偏见和歧视非常重要。通常来说,算法不公正包含两方面,一方面是个体的公正,另一方面是群体的公正。

3.造成偏见的原因

造成偏见主要来源于训练数据集的偏差。

1.skewed 样本。如果初始使用的是有偏的样本,这些偏见可能会随着时间一直存在。未来的观测会导致更少的机会来纠正预测。例如警察发现某个地区犯罪率高,会更加关注这些地方,更容易记录这些地方的犯罪,后面即使其他地区犯罪率也增高,但是可能由于警察的关注比较少,所以记录的犯罪率比较低。

2.污染样本。很多机器学习系统中存在一些认为造成的偏差。如果一个简历筛选系统使用管理员的label来训练模型而不是根据申请者的能力。那么这个系统训练得到的模型会更倾向于选择管理者的决定。

3.有限的特征。少数人群的特征的样本可能很少,这会导致系统相比多数人群会有更高的噪音。

4.样本尺寸的不均衡。如果少数人群的样本过少,会导致模型学习不准确。

5.即使敏感属性不被使用,如性别,年龄。也会有一些其他的属性来替代。如果这些属性存在,那么偏差还是会存在。

4.定义偏见

如何去定义偏见,首先去找到法律支持来看是否有关于不公正的定义。反歧视法在很多国家禁止使用敏感的属性来区别对待人,如性别,宗族。

statistical parity/demographic parity

X是全体样本。

S是保护的样本,或者说具有某种特征的样本。如女性样本。

我们定义一个分类起h: 把X分成0或1 X-> {0,1}

D 是样本中不存在包含某些特征的人群。举个例子,有些人不会申请贷款,比如非常富有,或者不喜欢消费的人。

定义偏差

bias(X,S,D)=prob(h(x)=1|x\ in\ S(complement))- prob(h(x)=1|x\ in\ S)

简单来说就是从S的互补集中取出样本模型结果为1 的概率与直接从样本S中取出结果概率为1 的机率相等。

当偏差小于某个阈值时我们就成为statistical parity.

statistical parity 不太可能会完全满足,因为算法需要特征和label 相关,这会导致不同的类别某个特征的比例肯定会不一样。

优点:

在法律和社会中中使用

缺点:

在算法中不存在

Equalized odds/Positive Rate Parity

True positive parity(TTP)

定义:

分类器C 满足TTP条件当
P_a\{C=1|Y=1\} =P_b\{C=1|Y=1\}
对于所有的group a,b.

False Positive Parity(FPP)

定义:

分类器C 满足TTP条件当
P_a\{C=1|Y=0\} =P_b\{C=1|Y=0\}
对于所有的group a,b.

Equalized odds/Positive Rate Parity

同时满足TPP+FPP

Predictive Rate Parity

分类起C同时满足

P_a\{Y=1|C=1\} =P_b\{Y=1|C=1\}

P_a\{Y=1|C=0\} =P_b\{Y=1|C=0\}

对于所有的groups a,b.

优点:

完美的分类器可以满足这些条件

缺点:

  • Different groups can get rates of positive prediction

通过对分类器进行后处理

5.如何得到公正的算法

有很多算法可以声称提高算法的公正性。主要包括预处理,训练中优化,后处理。

预处理:

去除掉敏感信息的同时尽可能的保留原始信息。

Learning fair representation:

找到一个合适的特征转化函数,将原始特征X转化到Z,但是仍然具有很强的特征表达能力。

algo-2-1024x796.png

我们的目标时训练一个feature transformation Z 。

A是一个判别是否满足公正性的判别器。我们希望转化之后的特征满足判别器的要求。

训练过程中优化

在训练过程中增加限制或正则项来优化现有目标。

后处理

6.公平性和实用性的tradeoff

可以设置两个目标函数。一个目标函数是优化训练的误差,另一个是使其满足判别的公正性bias。总的目标函数包含这两项,通过超参数来进行平衡。

  1. 需要定义一个合适的距离函数来衡量公平性

reference :

https://towardsdatascience.com/a-tutorial-on-fairness-in-machine-learning-3ff8ba1040cb

https://blog.ml.cmu.edu/2020/02/28/inherent-tradeoffs-in-learning-fair-representations/

https://www2.cs.duke.edu/courses/fall18/compsci590.1/lectures/FairML2.pdf

Beretta, Elena, et al. "The invisible power of fairness. How machine learning shapes democracy." Canadian Conference on Artificial Intelligence. Springer, Cham, 2019.

相关文章

  • 机器学习的公平性-算法的公平性

    机器学习的公平性 本片文章主要让读者快速了解什么事机器学习的公平性以及提供一些对机器学习公平性感兴趣的参考文章 1...

  • 深度学习的公正性

    很多论文都谈论了训练的公平性: Focal loss 中就对数据集作出调整,以平衡。 机器学习里的公平性到底有没有...

  • 深度学习中的公平性

    介绍 深度学习十分流行,在许多领域有着不错的表现。然而,深度学习算法中的公平性(fairness) 亦是重要的研究...

  • ZCash零币NVIDIA显卡EWBF's CUDA Z

    ZCash(Zec)使用的EquidHash作为POW算法,避免了硬件矿机的出现,以确保挖矿的公平性。因此ZCas...

  • 公平性

    在人力资源分配和协调上按照比例分配名额,这样大家才会觉得公平,分配处理不好,所有人觉得自己吃亏。

  • 公平性

    几乎每个人都会说这样一句话“老天爷咋这么不公平呢”这是抱怨的语气,消极的心态。 曾经我也有过这样的心态,时刻活在攀...

  • 干货-苹果对于违规的APP有哪些处罚方式?

    众所周知,为了维护 App Store 内部环境的公平性,苹果向来对违规行为绝不手软。除了不时地采用调整算法、改变...

  • 自动投标

    关于自动投标,关键问题就是投标队列的公平性和匹配效率。投标队列的公平性就涉及到排序比如根据时间先后排序、匹配投标成...

  • 币乎:点赞不公平没关系,KEY值钱就好

    最近看到很多讨论币乎点赞机制公平性的文章,说的都非常有道理。 但是,在我看来,币乎的公平性根本就不是目前的重点。 ...

  • Java ReentrantLock锁的公平性与非公平性

    锁按照公平性划分为公平锁和非公平锁,在Java中,ReentrantLock有这两种锁的具体实现,下文进行展示。 ...

网友评论

      本文标题:机器学习的公平性-算法的公平性

      本文链接:https://www.haomeiwen.com/subject/mxqhkhtx.html