辛普森悖论

作者: JonWang_js | 来源:发表于2019-10-12 01:20 被阅读0次

辛普森悖论
在列联分析中的辛普森悖论
辛普森悖论
辛普森悖论
辛普森悖论
辛普森悖论
辛普森悖论
辛普森悖论
辛普森悖论
辛普森悖论

辛普森悖论

对于存在相关关系的两组因子A、B，可能存在一种现象，A、B为正相关，而将A分组后的A1和A2分别与B成反相关，这种现象即为辛普森悖论。

简言之，就是分组和数据整体讨论相关性时不同。

一个构想的例子：

男女两人对比两家家餐厅推荐率时，发生分歧。一人看的是两家所有就餐人员的推荐率，选择其中一家，一个人看中的是和根据筛选不同性别的推荐率来看，选择另外一家（不同性别下，均推荐率高）。

数据构成：

性别 M餐厅 N餐厅

男 50/150=30% 180/360=50%

女 200/250=80% 36/40=90%

总 250/400=62.5% 216/400=54%

①总体来看推荐M餐厅；②分性别来看，推荐N餐厅

那为什么分性别来看推荐率高的反而总体看推荐率低：

N餐厅的女性推荐率高达90%，但它的样本只有40个，只占总评论人数的10%；而M餐厅的女性推荐率虽然只有80%，但女性评论者有250个，这显然会大幅拉高餐厅的总体好评率。

其实也就是看分组后的主要群体。在N餐厅的男性360，M餐厅女性250占比较大。那么这些主要群体的评论高低将影响评论的方向。所以我们可以看到总体上，M餐厅更高，这个和M餐厅的主要分组群体（女性）推荐率80%高于N餐厅主要分组群体（男性）推荐率50%一致。

简单来说就是分组后其中的主要群组的影响权重更大。反过来就是样本相对较小的群组虽然可能在数据指标上表现更高，但是此时对于总体指标表现影响较小，从而形成了辛普森悖论。

那么是不是说，一味考虑大群组的指标表现就可以了呢？在上面的假想例子中是可以说的通的，我们吃饭选择餐厅，考虑的是整体大众化的口味，来让做出选择的两人都能满意最后的选择，那么也就是可以选择不考虑性别因素。而是考虑整体，也可以说是考虑整体中大分组群体的“众数”表现即可。但是，现实生活中还有就是有些情景下我们需要具体对待。

下面看一个典型的例子：

两种治疗肾结石的方案取舍，两种方案的治愈率如下：

结石大小方案x 方案y

小结石 81/87=93% 234/270=87%

大结石 192/263=73% 55/80=69%

总体 273/350=78% 289/350=83%

一样的，分开看，选x;合并看，选y

方案x中的大结石群体和方案y中小结石群体为主要群体，所以它们的比率高低基本上影响了整体方案的治愈率高低。

这里简单插入一下实际操作的场景：大结石肯定是比小结石严重，这个时候医生处理的时候x方案更具有侵入性（医学上带有一定创伤性的治疗措施），结石小就会更倾向选择保守方案y。大概意思可以理解为，重病猛药，轻病带着治。

这种场景下，就是说，治愈率和方案xy有关，又和结石大小有关；

而选择方案xy本身在实际操作中是受到了结石大小影响的。（这里感觉和辛普森悖论提出的人种肤色死刑率的案例有相似性，感兴趣的可以去了解下）

那么其实看这个方案选择问题的，其实综合来看总体情况是不切合实际的，是需要分开大小结石来看的，那么分开看的的角度下，最终答案就是选x。

这么看来，聚合数据看很有用，但是有些情况下，分组看，也许更贴近真相。

另外还有运动和病情恶化的例子，50岁分界线两组数据，运动多，病情恶化少；合并一起，运动多，恶化多；实际上是合在一起，年龄越大，恶化越多，运动成了非唯一变量。

图1 分年龄段看相关性（运动量*恶化可能性）

图2不分年龄看相关性（运动量*恶化可能性）

图3分年龄段看相关性（年龄*恶化可能性）

再看最后一个例子：

杰拉尔德·福特担任美国总统期间的税收、税率变化，各收入群体税率下降（tax/income）,社会整体税率却提高了。因为总值占比较低的非高收入群体的税率降低的多，总值占比较高的高收入群体降低的少，所以税率变化主要受高收入群体的影响，整体税收水平的涨幅高于收入总值，使得税率不降反增。

图4 不同时间下不同收入群体税率对比

但是从理解数据需求角度来说，个人仍更关注个人自己的税率，是下降的，工资水平是增长的，这对于个人来说才是比较重要的信息。

总结下来：

①一般都是遭遇比率类的问题；

②辛普森悖论和样本大小存在一定关系；

③辛普森悖论其实受“众数”影响较大，众数的比率指标往往反映了整体的比率指标情况，那么在分析决策时候，我们要选择的就是，是否要信赖分组中“众数群体”的表现，作为决策指引；

④辛普森悖论跟混淆变量有关，需要控制变量，找到实际的相关因素，拆开表面数据；

⑤方法上可以多用散点图来观察问题。

网友评论

本文标题：辛普森悖论

本文链接：https://www.haomeiwen.com/subject/ydefmctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

辛普森悖论

相关文章