美文网首页玩转大数据大数据
赤裸裸的统计学 - 读书笔记

赤裸裸的统计学 - 读书笔记

作者: 影子君_ | 来源:发表于2020-04-03 17:57 被阅读0次

    这篇读书笔记的完成情况会随着我的阅读进行

    全文思维导图

    内容思维导图

    章节摘要

    第一章 统计学是大数据时代最炙手可热的学问

    全书以作者讨厌数学但偏爱统计学的观点展开,数学全是复杂枯燥的公式,但统计学却和生活息息相关十分有趣。本书的创作宗旨在于介绍那些和日常生活联系最为紧密的统计学概念,比如科学家们如何总结癌症诱因?信用卡公司如何根据你的消费数据,来判断你是否会错过还款期限?这将学科学习中具体细节与那些重要的概念剥离开来,这就是赤裸裸的统计学。

    本章以人们对两种统计学数字(传球绩效指数和基尼系数)不同态度引出,来谈论统计学的意义。人们很兴奋去谈论传球绩效指数去评估一个球员在赛场上的表现,却在听研究员解释基尼系数定义时手心冒汗。但实际两者本质没多大区别的,都是描述统计学的表达方式,用尽量简化的统计数字去传递信息。传球绩效指数直接显示球员的表现,基尼系数直接显示一个国家在一个时期内的财富分配公平程度(贫富差距程度)。学习统计学的意义就在于帮助我们看透数据来洞察社会(如基尼指数)。

    而后以几个小故事来简单引出本书后续会讲到的统计学概念。

    击球率与大学学分(第2章 - 描述统计学)

    • 在简化数字传递洞察信息的同时也存在简单数字不能产出全面结论的缺点。

    用抽样数据来解决大问题(第10章 - 统计推断与假设检验)

    • 抽样调查能从一些样本得出整个群体的洞察信息。

    概率、风险与考试作弊(第5章 - 概率与期望值)

    • 从概率出发可以解决很多生活中的问题,如企业的的投资风险评估(金融危机爆发的部分原因就是一系列被认为小概率发生的市场事件成为现实),但同时也有着局限,如通过考试中同时做错一题的概率评估作弊行为不见得绝对准确。

    哪些人最有可能成为恐怖分子?(第12章 - 回归分析与线性关系)

    • 回归分析可以确定两个变量之间的强烈联系,但却无法解释为什么存在这种联系,我们甚至不能确定他们是否是因果联系,也就是一个变量的变化是否真的能引起另一个变量的变化。
    • 比如研究表示恐怖分子通常来自受过良好教育的中产阶级或高收入家庭 - 可能的解释:恐怖分子的行动一般都带有政治目的,所以只有受过高等教育和家境殷实的人才有最大的动力去改变社会,这些人尤其忍受不了某些政府部门对自由的压制, 从而走向恐怖主义。
    • 再次强调:统计学的目的不在于展示多么高级的统计技巧,而在于通过统计学来认清我们的生活。

    统计学背后的谎言与真相(第3章 - 统计数字会撒谎 )

    • 统计学可以洞察现象,但也可能会撒谎(比如当数据被错误解释),本书会带读者认识常见的统计学方面的错误,让读者不至于犯了错还不自知。
    • 再次强调统计学的意义:总结大量数据,做出正确决定,回答重要的社会问题(如怎么卖更多尿片,抓住更多的罪犯)。

    第二章 描述统计学

    本章以一个问题出发,介绍了若干描述性统计的元素并用例子解释其用途与局限,最后用所介绍的元素回答了问题。

    问题

    美国中产阶级的经济健康状态出了什么问题? - 这一问题极为重要,几乎构成了每次美国总统选举和社会运动的核心。中产阶级是美国的心脏,这一群体的经济状况是整个国家经济运行健康与否的关键性指标。

    描述性统计的元素

    得出答案需要一个对大量信息进行归纳处理后的数据,描述性数据就满足一要求,为我们提供了一个针对某一现象的可操作、 有意义的概括,这也是本章所要讲的。但局限也明显在于高度简化得出的数据可能得出具有误导性的结论。

    平均数

    描述美国中产阶级经济状况所需要的是一个经济衡量指标,去描述那些我们称之为“中产阶级”的人到底是更富了、更穷了,还是在原地踏步?人均收入(平均数)或许是一个不错的经济指标:

    美国的人均年收入从1980年的19600美元(通货膨胀因素处理后数据)上升到2010年的26487美元。

    局限:

    • 平均数对“异常值”敏感,富人可能越来越富,人均收入被收入排行榜1%的富人拉高而其他99%的美国人可能实际并没有变富,所以平均数不能客观衡量美国中产阶级的经济健康状况。

    中位数

    考虑到平均数的局限,中位数也要纳入参考,如果一组数据分布中没有特别离谱的异常值,那么它们的中位数和平均数将会是差不多的。

    分位数

    与中位数所配对使用的四分位数或者更为具体的百分位数可以描述了某个具体的值在与其他数据进行比较时所处的位置。比如成绩比较上,分位数比起绝对成绩比较更能体现学生当前成绩的优秀程度。

    标准差

    标准差这一描述性数据能够让我们用一个独立的数字来表示距离平均数的离散程度。比如验血后得知你的HCb2值(一个虚构的血液指标)为134,google后得知同龄人正常值为122,绝望写下遗书后医生一脸淡定告知HCb2标准差为18,你HCb2值正常。

    讲到标准差很自然引入正态分布的概念:

    正态分布图

    正态分布通过定义让我们能够清楚地知道,有多少数值位于平均值一个标准差的范围之内(68.2%),有多少数值位于两个标准差的范围以内(95.4%),还有多少数值位于3个标准差的范围以内 (99.7%),以此类推

    百分差与百分率

    两者不可混为一谈,对相同数据使用可能会引向两个不同结果。本节使用了一个例子说明:

    伊利诺伊州的个人所得税税率由原来的3%上调到了5%。我们看到有两种不一样的说法来描述这一税率的变化,而且这两者在技术上都是正确的。主张并促成这次个税 改革的民主党(正确无误地)指出,伊利诺伊州的个人所得税税率上升 了两个百分点,从3%上涨到5%;共和党(同样正确无误地)指出,该 州的所得税税率上升了67%,我们可以用刚刚学会的公式验证一下, (5-3)/3=2/3,即67%。

    答案

    要评价美国“中间阶级”的经济状况,我们需要了解(通货膨胀调整后的)工资中位数在过去几十年中的变化,同时留意处于第25百分位数和第75百分位数人群的工资变化,因为这两拨人通常被认为是中产阶级中的高收入和低收入人群。第二个要留意的点是不可将工资和收入画等号,工资是工人单位时间(天、周、月等)产出所得,收入是所有所得的总和。当时薪下降时,工人可以靠加班来提高收入,但这很难评估工人的整体生活质量到底是更好还是更糟。因此,相比于收入来说,工资是评价美国人劳动收益的一个更加直观的指标,工资越高,工人们每工作1小时能领到的钱也就越多。

    不同收入群体的周薪变化

    从图中我们得出近30年来美国中产阶级财富状况没有什么变化,在原地踏步,但富人的财富状况却是越来越好了。

    相关文章

      网友评论

        本文标题:赤裸裸的统计学 - 读书笔记

        本文链接:https://www.haomeiwen.com/subject/hioqphtx.html