情景:
在列联分析中有时会出现辛普森悖论,简述什么是辛普森悖论,它产生的原因是什么?如何防范辛普森悖论。
什么是辛普森悖论?
在分组比较中都占优势的一方,在总评中有时反而是失势的一方。(维基百科)
边缘关联和条件关联有相反结论的情况称作辛普森悖论。(《属性数据分析引论》)
产生原因?
高维列联中确定两个基本分类变量,其他变量的每一层都是一个二维列联。其他变量合并起来,也是一个二维列联
根据研究目的,通常将高维列联压缩为多个二维列联进行分析。在进行高维列联压缩过程中,如果某些被压缩变量的条件相关和边际相关方向不一致,就可能会导致辛普森悖论。
如何防范辛普森悖论?
为了避免在数据降维过程中出现辛普森悖论,需要对数据进行辛普森悖论检验。实质就是进行分层数据进行卡方检验。
进行Cochran-Mantel-Haenszel(CMH)检验
原假设:两个名义变量在第三个变量每一层中都是独立的
备择假设:分层不独立
CMH条件量构造原理:用每一层的样本量作为权重,计算加权卡方统计量
辛普森悖论案例
1976-1987年弗罗里达州共有674个涉嫌杀人案件,凶手种族与死刑判决情况如下
白人黑人合计
如果不看其他数据,能大概分析出,黑人的死刑率比白人低,进而推导出,种族问题在该州已经得到了极大的改善,然而身边的套路太多,一不小心就会掉下去,当把另外一组数据摔出来,会把做数据的人啪啪打脸,请看
被告人为白人
被告人是黑人
被告是白人,如果被害人是白人,走正常流程,如果被害人是黑人……此处省略。
被告是黑人,如果被害人是白人,死刑占比22.9,是上边的2倍以上,被害人是黑人,也出现了判断为死刑的出现。
所以通过改组数据分析得出,该州的种族问题还很严重,并不是想的那么乐观。
网友评论