美文网首页
KDD2020 | 公平性如何度量?

KDD2020 | 公平性如何度量?

作者: 顾劝劝 | 来源:发表于2020-05-16 10:32 被阅读0次

公平性通常有两种思路,一是对于相似的个体,应当有相似的结果(也叫fairness through awareness);二是对于不同的群体,应当有平等的结果,不能仅仅因为肤色的差异而下结论说其中一类人的犯罪风险更高。

不过,度量公平性并没有那么容易。从个体角度,很难判断相似性;从群体角度,仅靠敏感特征(sensitive attributes)容易失去判断公平性所需的信息。以著名的伯克利男女录取比为例,在两个学院内录取比分别相等,由于代表性偏差,总的录取比却是男生大幅领先。

本文的任务依然是根据特征进行预测学习,同时兼顾一些公平性的约束。作者提出了“条件公平性”(conditional fairness,CF)的度量标准,通过找到一些“公平性变量”(fair variables),使得给定这些公平性变量时,敏感特征与结果独立。

已有的两个公平性评价指标:Demographical parity (DP)和 equalized odds(EO)。前者为预测结果在给定不同敏感特征值时的差,后者为给定结果和不同敏感特征值时结果之差。基于这两个指标,本文提出了条件公平性,在给定公平性变量的条件下,评估预测结果在不同敏感特征值下的差距。这样,如果公平性变量是空集,指标等价于DP;如果公平性变量就是结果本身,指标等价于EO。CF指标既适用于连续公平性变量,也适用于离散的。

优化目标便是以CF为约束得到的预测损失,和无约束的预测损失的一个加权和。权重代表了任务究竟是侧重于公平还是侧重于精度。

公平性变量离散的时候,还容易处理。倘若连续,意味着公平性变量的每一个值都将对应着一个子群体,不仅使得维数大大增加,而且每个子群体的结果也容易因为数据稀少而过拟合。作者的办法是用一个新的表示来替代公平性变量,即把普通特征和敏感特征映射到一个新的多维变量上,而这个变量的取值是离散的。

相关文章

网友评论

      本文标题:KDD2020 | 公平性如何度量?

      本文链接:https://www.haomeiwen.com/subject/lmviwhtx.html