美文网首页
读《赤裸裸的统计学》

读《赤裸裸的统计学》

作者: Cyyyyyyyy | 来源:发表于2016-06-18 16:10 被阅读1982次

    本文是《赤裸裸的统计学》一书的笔记、总结和思考。主要是个人梳理和沉淀知识之用,有兴趣的话可以看看原书。


    统计学有什么用

    获得描述性数据

    我们经常要从大量数据中提炼出一个描述性数据来简化问题。比如:我们想知道一个球员的好坏,可以用场均得分数来衡量。相对简单的场景,我们可以使用单一的指标来评估。
    对于复杂的场景,我们可能就要将各种数据综合起来,比如:学校要通过衡量学生的成绩,奖学金发给最优秀的学生。每个学生在大学中选修的课程都不同,凭什么来决定把奖学金给谁呢?我们需要一个相对客观和公平的机制来评价每一个学生的成绩。我们把每一科的百分成绩折算后乘以对应科目的学分,累加起来再除以总的学分,计算出来的就是一个学生的GPA。我们把GPA做一个排名,排名最靠前的那些学生自然就是成绩最好的那一些。

    用抽样数据解决大问题

    我们有时要解决一些大问题,比如:我们想知道一个城市中到底有多少流浪汉。我们没法把整个城市的流浪汉挨个数一遍,我们只能抽样。通过计算某个区域内的流浪汉数量,基于此推测别的区域内的流浪汉数目。当然,这样算出来的数字肯定是不准确的,但是只要抽样和计算的方法正确,得到的结果也不会有特别大的偏差。

    评估风险

    保险行业都是依靠统计学来生存的。比如对针对火灾的保险而言,他们要知道在某个地区的火灾发生的概率,根据概率计算出保费和赔付上限。只要按照这个思路,保险公司亏钱的概率将变得非常低。在车险上,今年出过事故的司机下一年的保费会变得更贵,这也是因为一个今年出过事故的人明年再次出事故的概率会更高一些,他们可能会有更糟糕的驾驶习惯,所以保险公司需要向他们收取更高的保费来平衡风险。
    同理,博彩公司、彩票、赌场等行业也都是靠着统计学来赚钱的,不可能总是有那么多人同时赢钱,他们也许在某天运气不好会有亏损,但是从长远来看他们总是能赚到钱。

    发现潜在的问题

    我们同样可以通过分析数据发现问题,比如:一个学校的平均学习成绩不大可能突然突飞猛进;学生在难题的正确率不会远远超过简单的题;一个城市的失业率一夜之间大幅提升。这些不符合正常规律的背后往往可能隐藏着问题,统计学可以帮助我们更容易的发现异常的情况。

    分析问题相关性

    统计学可以通过分析问题的相关性来寻找问题原因,比如:体重重的人会不会更容易感冒。研究人员收集人们的体重和感冒的次数,进行分析后,我们可以推导出体重和感冒次数两个变量之间是不是存在相关性,并得出具有统计学意义的结论,为进一步的研究打下基础。

    统计学的理论和应用

    平均数、中位数

    这两个概念都属于描述性数字,它们各自有不同的用途。对于数据1、3、5、7、9、11、10002来说,平均数是(1 + 3 + 5 + 7 + 9 + 11 + 10002)/ 6 = 1673,而中位数是按照大小排序后在最中间的数7。在使用它们描述问题时,需要进行正确的选择。一般情况下,中位数受到异常数据的影响会更小。如果异常数据不多,中位数跟平均数应该比较接近。

    相关性和相关系数

    相关性体现出变量之间互相关联的关系。如果一个变量随着另一个变量增加而增加,则这两个变量存在正相关性,比如身高和体重的关系,反之亦然。相关系数代表着变量之间相互影响的剧烈程度,如果相关系数为0表示变量之间不存在相关性,相关系数大于0则代表两个变量为正相关,相关系数越大说明两个变量的关联性越强。
    必须注意的是,相关性是基于统计数据的分析的。真实世界中必然存在个子矮的人比个子高的人要重的情况,我们在讨论问题时必须意识到这一点。另外,相关关系并不等于因果关系,这个点会在下面详细解释。

    概率、期望和大数定律

    概率是事件发生的可能性,期望是发生事件最有可能的结果。它们可以共同成为我们做出决策的依据。
    彩票排列3的奖金是1040元,它的中奖期望是1 / (10 * 10 * 10) * 1040 = 1.04元,也就是你花两块钱买一注彩票最有可能得到的是一块多一点。所以从理性的角度,不要把钱浪费在彩票上。
    概率毕竟只是对可能性的研究和预测,你仍然有可能只买一注两块钱的彩票就中了1000块;你也有可能总是买到将要涨停的股票。如果你觉得自己就是运气爆棚,那就试试吧,祝好运。

    大数定律:随着实验次数的增多,结果的平均值会越来越接近期望值。也就是说,我们投一个正常的6面骰,投的次数越多,平均值就会越接近3.5。大数定律可以推广到更多的领域中:体育明星在登上杂志封面后经常会出现状态下滑的状态,这不是杂志的诅咒,而是因为这些明星经常会因为超水平发挥登上杂志封面的,终究他们的表现会回归自身的平均水平。

    标准差和中心极限定理

    标准差用于衡量数据的离散性。数据在平均值周围分布越密集,其标准差就越小。
    中心极限定理意为,任意一个群体的样本平均值都会围绕着该群体的整体平均值周围,并且呈正态分布。即应该有百分之68%的数值位于平均值一个标准差范围内,95%的数值在平均值两个标准差的范围内。

    因此我们可以按照中心极限定理,通过正确的抽样来确定整体的平均值(民意调查)。我们也可以通过判断样本平均值距离整体平均值的远近,推测该样本是不是从整体中随机抽取的。如果样本平均值距离整体平均值两个甚至三个标准差以上,就可以推测很可能有别的因素介入影响了样本。

    统计学的工具

    统计推断

    统计推断是一个让数据说话,让有价值的结论浮出水面的过程。它是依据基于样本数据和问题模型,对未知事物做出的以概率为形式的推断。上面关于中心极限定理的运用就是统计推断的一种思路。

    统计推断过程中的一个常用工具是“假设检验”。现假设一个结论,再通过统计分析对其进行支持或者反驳。假设检验的细节和流程就不在这里展开细说了。

    回归分析

    回归分析可以帮助我们确定两个变量之间的相关性,我们可以用统计学工具拟合出最佳的线性关系。

    我们可以将一组身高和体重的数据拟合为下面这样一个公式:
    体重= -135 + 4.5 / 身高
    这说明人的身高越高体重一般会越重。如果我们在数据里加上年龄,它就可能会生成如下的方程式:
    体重 = -145 + 4.6 / 身高 + 0.1 / 年龄
    年龄前的系数远小于身高,意味着平均年龄增长一岁,体重只增加0.1个单位,年龄对体重的影响比身高要小得多。我们再在数据里加入性别的因素:
    体重 = -118 + 4.3 / 身高 + 0.12 / 年龄 - 4.8 * 性别(女性为1,男性为0)

    我们可以看到,回归分析是一个非常强大的统计工具,它可以让我们看到多个变量各自对结果会产生什么样的影响,从而帮助我们分析和解决问题。

    统计的陷阱

    正确获取数据

    统计学是基于数据的科学。我们无法从一份错误的数据中推出正确的结论,所以数据的获取就至关重要。
    先要确定要抽样的用户特征,针对他们设计抽样方法:如果调查是针对某个学校学生家长,可以通过随机抽取数据库中手机号的方式对用户进行电话访谈;针对某个新闻网站的用户,可以在新闻页面投放问卷(需要注意的是,必须考虑到投放新闻的类型和形式会不会对目标人群造成影响)。
    同时测验的设计也很重要。用户在软件卸载界面做卸载理由调查时,有可能直接选择第一个默认选项,让选项以随机顺序展示可以减少这种情况的干扰;问题本身不应该用户产生干扰和引导。

    相关性不是因果关系

    必须要注意的是,在分析问题时,统计学只能推导出变量之间的相关性,而无法解释原因,所以也可能是背后隐藏的第三个变量产生了影响。比如:如果家中的电视机数量和学生成绩之间成正相关,我们不能直接得出结论说家庭看电视越多,学生成绩会越好。我们必须考虑到电视机更多的家庭往往会更加富裕,这样的家庭可以给孩子提供更好的学习条件,孩子的平均成绩自然会更好。

    被压缩的数据

    从大数据中提炼出的描述性数据不可能百分百准确,经过压缩的数据必然会忽略某些因素,以至于在一些场景下有失公平。我们必须理解并接受这一点。我们可以通过思考和分析让我们设计的数据指标尽量完善,但是要警惕不应该陷入对无懈可击的指标的盲目追求,否则我们只会永远在停留在如何设计指标这一步,而忘了我们的最终目的是解决问题。

    选择性的使用数据

    我们可以通过巧妙的选择数据来控制结论,详见《赤裸裸的统计学》第三章《统计数字会说谎》。

    相关文章

      网友评论

          本文标题:读《赤裸裸的统计学》

          本文链接:https://www.haomeiwen.com/subject/feitdttx.html