《赤裸裸的统计学》回顾--（9至12章）

作者: 般若般罗蜜多 | 来源:发表于2020-03-14 21:23 被阅读0次

《赤裸裸的统计学》回顾--（9至12章）
《赤裸裸的统计学》回顾--（一至三章）
《赤裸裸的统计学》回顾--（四至八章）
《赤裸裸的统计学》回顾--（十三、十四章）
统计学
赤裸裸的统计学
《赤裸裸的统计学》
《赤裸裸的统计学》
《赤裸裸的统计学》
赤裸裸的统计学

第九章中心极限定理

·一辆坐满肥胖乘客的客车抛锚在路边，推断一下，它的目的地是马拉松比赛场地，还是国际香肠节？

·有时候统计学就像魔术，能够从少量数据中得出不可思议的强大结论。例如只需要对1000个美国人进行带电话调查，就能洞悉美国总统大选的得票数。此外，还有食品沙门氏菌的检测。

·中心极限定理的核心要义：一个大型样本的正确抽样与其所代表的群体存在相似关系。相关推理如下：

-1、如果我们掌握了某个群体的具体信息，就能推理出这个群体汇总正确抽取的随机样本的情况。

-2、如果掌握了某个正确抽取的样本的具体信息（平均值和标准差），就能对其所代表的群体做出令人惊讶的精确推理。

-3、如果我们掌握了某个样本的数据，以及某个群体的数据，就能推理出该样本是否就是该群体的样本之一。例如，已知马拉松参赛选手的平均体重，和客车上肥胖乘客的平均体重，就可以计算出客车肥胖乘客是不是马拉松选手了。距离3个标准差则有99.7%的概率，2个标准差95%，1个标准差68.2%。

-4、如果我们已知两个样本的基本特性，就能推理出这两个样本是否取自同一群体。

·根据中心极限定理，任意一个群体的样本平均值都会围绕在该群体的整体平均值周围，并且成正态分布；取样次数越多，结果就越接近正态分布；样本数量越大，分布就越接近正态分布。

·标准误差：用来衡量群体中所有个体的离散性，但仅仅衡量样本平均值的离散性。即标准误差就是所有样本平均值的标准差。（多个样本，一个样本有多个对象）

-标准误差表达式：SE = s/ $\sqrt{n}$ ；其中SE是标准误差，s表示抽样群体的标准差，n表示样本的数量。例如，马拉松运动员群体有62个人，体重平均体重是162斤，标准差是36，则标准误差是：36/ $\sqrt{62}$ = 36/7.9 = 4.6。客车肥胖乘客群体的平均体重是194斤，192 - 162 = 32，32大于4.6的三倍以上，所以可以有超过99.7%的概率判断客车乘客不是马拉松的参赛运动员。

·统计推断：

-1、如果你从某个研究群体中多次随机抽取数量足够多的样本，那么这些样本的平均值会以整体平均值为中心呈现正态分布（不论该群体自身的分布情况是怎样的）。

-2、绝大数的样本平均值都会紧紧围绕在整体平均值的周围，通过计算标准误差就可以知道这些样本平均值到底是离得‘近’还是‘远’。

-3、通过中心极限定理，我们便可以知道样本平均值与整体平均值之间的距离及其概率。样本平均值离整体平均值两个标准误差的概率相对较低，3个或以上的标准误差的概率基本上为零。

-4、如果出现某个概率比较低的结果，我们便可以推测是不是有一些其他因素介入，而且概率越低，其他因素介入的可能性就越大。

第十章统计推断与假设检验

·垃圾邮件过滤、癌症筛查、恐怖分子追捕，我们最不能容忍哪件事情出错，又有哪件事情是可以“睁一只眼睛闭一只眼睛”的？

·一个赌徒连续掷骰子十次的点数都是6，那就应该检查一下他的骰子，毕竟这是六千万分之一的概率。另外应用还有药物效果的推断、雷击的因素。

·统计学的意义并不是进行无数次高深的数学推算，而是在于更好洞察社会现象背后的成因。

·计算平均值差异的标准误差平均值比较公式：（x样本的平均值 - y样本的平均值）/ $\sqrt{x标准差的平方/n + y标准差的平方/n}$ 。即假如两个样本所在群体的平均值是相等的（即它们取自同一群体），那么它们的平均值之差小于一个标准误差的概率是68.2%，两个是95%，三个99.7%。

·单双尾检验假设。一般来说只有有一种假设，但是也有两种假设，例如，一种假设是篮球员的平均身高比正常人高或低，另一种假设是篮球员的平均身高比正常人高。则，前者要进行双尾假设检验，后者只需进行单尾检验。比如，我们都知道篮球运动员的平均身高是高于正常人的，所以只需要进行单位假设检验，即假如假设成立，那么平均值差异大于或等于1.64个标准误差的概率只有5%。因此，如果两组男性的身高之差位于该区间，那么我们就可以推翻假设，即证明篮球运动员的身高并不是高于正常人。

第十一章民意测验与误差幅度

·民调结果显示，有89%的美国人不相信政府会做正确的事，有46%的美国人认可奥巴马的工作表现。这个结果可以代表美国人的真是想法吗？

·百分比的标准误差计算公式： $\sqrt{p(1 -p)/n}$ 。例如，对民意进行测验，是否认可奥巴马的工作表现，其中p代表某个特定观点的回应者比例，（1-p）代表不同观点的回应者比例，n代表样本所有回应者的数量。由此可知，样本量越大，标准误差越小；p与（1-p）的差距越大，标准误差也会越小。比如，有95%回应者表达某种观点时，其样本的标准误差就会小于回应者观点只有50%的相同率的样本的标准误差。0.05*0.95=0.047，0.5*0.5=0.25，分子越小，标准误差越小。

-事例：假如进行一次“选举后测验”，500选民中有53%投了共和党（特朗普），45%投给了民主党（奥巴马），还有2%投给其他人。那么，以共和党为参照率p，则测验的标准误差就是2%（0.02）。由此可知，约有68%的概率共和党会获得53% $\pm$ 2%的支持率，即（51%~55%支持率）因为一个标准误差内是68%。同理，民主党有68%的概率获得45% $\pm$ 2%的支持率，即（43%~47%支持率）。而问题在于，虽然知道共和党可能比民主党的支持率高，但是这里只有68%的概率可以肯定，明显距离显著性为0.05还远。

-因此，要达到显著性为0.05的区间，要扩大两个标准差（2*0.02），即95%。这时候就有95%认为共和党的支持率是53% $\pm$ 4%，即49%~57%的支持率，民主党是45% $\pm$ 4%。即41%~49%。很明显这里虽然有95%的准确性，但是支持率有重合的49%，所以还是不理想的。

-所以，要达到95%的准确率，得从样本数量下手。前面提到，样本只有500人，如果我们将样本提高到2000人，那么标准误差就是： $\sqrt{0.52*0.45/2000}$ = 0.01，即标准误差是1%。如果想要置信区间为95%时，可以扩大两个标准误。即有95%的概率可以知道共和党的支持率是52% $\pm$ 2%，即50%~54%，民主党的支持率为45% $\pm$ 2%，即43%~47%。这个结果就相当有说服力了。

-综上所述，要结果概率升高的话，可以从标准误差和样本数量入手。

·但是，进行民意测验或采用别人的调查成果时，应该反复问下自己以下几个问题：

-1、这个样本能正确地反映目标群体的真是观点吗？这里主要是之前提过的偏见对数据采集的危害。

-2、采访过程中的问题设置能得出对研究课题有用的信息吗？例如，调查民众是否支持死刑时，如果不把无假释的犯人加进样本，那么支持率是挺高的的，如果加进去的话，那么支持率就会变低了。所以，对于一个复杂的话题，只看一个问题或一次民调结果是不可能完全看透公众的心理的，此时更需要有大局观和联想力。

-受访者说的一定是真的吗？民意测验就像是网恋，在对方所提供的信息里总是有那么一点“言不由衷”的成分。因为，人都有撒谎的次数，尤其是问题比较尴尬或敏感的时候。受访者可能会夸大他们的收入，或在某个月的做爱次数上“修饰一番”等。所以，如果担心受访者会羞于表达某个社会接受度不高的观点时，可以采用迂回的问法，比如，“你身边有认识的人”持有这种观点吗？

第十二章回归分析与线性关系

·你认为什么样的工作压力更容易使职场人士猝死，是“缺乏控制力还是话语权”的工作权，还是“权力大，责任也大”的工作？

-研究表明，并不是那些“权力大，责任也大”的压力置你于死地，而是那种等着上司给你布置任务，但自己有没有权力决定应该怎样完成、何时完成这些任务的压力把人压垮了。

·回归分析：能够控制其他因素的前提下，对于某个变量与某个特定结果之间的关系进行量化。例如，研究样本低级别工作对样本人群的伤害时，应保证其他条件是相似的，比如吸烟习惯。

·回归分析寻找的是两个变量之间的最佳拟合线性关系。例如身高和体重的关系，虽然不是绝对，但是一般来说，身高越高，体重越重。当运用回归分析去拟合多数据的样本时，常用方法是最小二乘法（OLS）。

·当有超过一个自变量（也可成解释变量）的时候，通常称其为多元线性回归分析或多变量复回归分析。例如，解释体重这个因变量时，就有多个自变量（年龄、性别、饮食、运动等）。所以，要证明多自变量对因变量的影响时，可以拟合为一个系数来描述，当然，自变量不是越多越好。

网友评论

本文标题：《赤裸裸的统计学》回顾--（9至12章）

本文链接：https://www.haomeiwen.com/subject/gbxnshtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

《赤裸裸的统计学》回顾--（9至12章）

第九章中心极限定理

第十章统计推断与假设检验

第十一章民意测验与误差幅度

第十二章回归分析与线性关系

相关文章