辛普森悖论在生活中的作用

作者: zcwfeng | 来源:发表于2021-03-28 13:36 被阅读0次

    概念

    对数据分层统计和整体统计结果可能是不一样的。

    例子

    NBA球星,勒布朗.詹姆斯 和 卡尔.马龙,都是篮球场上的长寿球员。也是NBA历史上的著名前锋。我们想比较一下他们的投篮命中率。

    首先看二分球

    article1.jpeg article2.jpeg
    勒布朗.詹姆斯 (命中/出手=命中率) 卡尔.马龙 (命中/出手=命中率)
    二分球 10564/19245=54.9% 13443/25900=51.9%
    三分球 1860/5409=34.4% 85/310=27.4%

    詹姆斯在职业生涯透出了19245个二分球,命中10564个,命中率54.9%
    马龙在职业生涯透出了25900个二分球,命中13443个,命中率51.9%

    詹姆斯更高一些

    再来看三分球

    詹姆斯在职业生涯透出了5409个三分球,命中1860个,命中率34.4%
    马龙在职业生涯透出了85个三分球,命中310个,命中率27.4%

    还是詹姆斯更高一些

    我们发现无论是二分球还是三分球,都是詹姆斯命中率更高。
    那么二分球和三分球一起统计。也应该是詹姆斯命中率更高才对呀?事实真的如此吗?
    詹姆斯一共投出了24654个球命中了12424个,命中率50.4%
    马龙一共投出了26210个球命中了13528个,命中率51.6%

    反而是马龙更高

    这个是怎么回事,这悖论,解释起来并不是很难。无论是詹姆斯还是马龙他们二分球命中率都显著高于三分球,因为二分球更容易进。詹姆斯投了5千多个三分球,拉低了自己的整体命中率,而马龙一共投了3百多个三分球,所以整体命中率高于詹姆斯。

    简单来说,如果一个人多去干那些成功率高的事,就会让他的整体成功率变大。这就是辛普森悖论的本质。

    房价的例子也是

    加入一个城市去年市区房价6万一平,郊区房价2万一平,市区和郊区房源比例1:1,那么全市房价:(6万x1+2万x1 )/2 = 4万。那么去年平均房子价格4万一平

    今年市区涨到6.5万,郊区涨到2.5万,市区和郊区房价都涨了5000元,但是由于郊区房子大量入市,市区郊区比例变成1:3,全是平均房价就变成(6.5万x1+2.5万x3 )/4 = 3.5万,反而下降5000元

    这也是辛普森悖论,虽然数据是客观和真实的,但是不同的人利用同样的数据确可以讲出不同的故事。

    比如一个人更喜欢詹姆斯,就可以用二分球和三分球的分层数据来支持自己。如果一个人更喜欢马龙,就可以考虑全体命中率。

    如果我劝你买房,就会拿出市区和郊区分层数据告诉你房价在上涨。
    如果我想说明放假稳定,甚至下跌,想忽悠你卖房,就可以用全市平均数据告诉你房价在下跌。

    马克吐温说:世界上有三种谎言,谎言,该死的谎言和数据统计。用真实的数据推测出一个未经过证实的结论,并以此为根据来煽动仇恨达到自己的目的是许多阴谋论家的最爱。

    所以你还相信销售说的话吗?

    相关文章

      网友评论

        本文标题:辛普森悖论在生活中的作用

        本文链接:https://www.haomeiwen.com/subject/vlsphltx.html