前几周这个作业卡了我好久,由于真的想好好学学统计学,所以想尽量以一个高标准来完成作业,给自己的要求是我要用 python 把所有的习题都做了,谁知道,这其实是一个不小的坑。坑不在 python,因为我还没来得及跳,而在于统计学。
我之前不太确定我写的那个理解正态区间对不对,所以抱着《极简统计学》接着往下看,希望能够找到答案,于是看着看着,发现其实用正态区间的公式去估计总体是不准确的,后面的 t 分布和卡方分布才是解决这个问题的正确方式。接着就继续花时间研习这两个分布是怎么回事。
在看书的同时,我还看到了大家交的作业,每个人的算法都不太一样,看了余博的那个用从假设检验的角度来理解掷硬币的习题1,也觉得,这样才是正确方法啊,所以又花时间去学习什么才是假设检验。
其实这几个知识点,现在看来也并不难,却耗费了我不少的时间。主要原因除了自己的基础以外,还因为我试图去“理解”统计学。而事实上,统计学上很多图形,算法和公式,是不需要过多的理解的,产生的过程其实就是数学的推理,非要说每个参数在实际当中的意义,或者图形的意义,是没有必要的,只要知道在什么样的场合下,应用什么更准确就够了。
学习数据分析是为了更好的理解业务,理解科学,在遇到实际的数据问题的时候,找到适合的统计学工具,用合适的有效的算法去达到指导行动的目的,这才是目标。分清楚实用的技能与科学之间的区别,才能让效率最大化。
基础学科的学习当然是必要的,是进阶的基础,但是在入门阶段,如果没有足够的精力,可以不用去了解太多底层的理论,先学会怎么应用,能上路再说。知道油门刹车方向盘怎么用,就可以走了,怎么修车,怎么保养?以后有的是机会呢。
习题1:投掷 N 枚硬币,正面出现了57次,假设 N=100要舍弃还是接受?
作为一个统计学小白,我没懂“假设 N=100”是什么意思,因为我对假设检验没概念嘛。于是我就翻了一下之前同学们写的作业,发现原来这是个假设检验中的假设。
什么是假设检验?就是以“小概率事件不会发生”为前提,计算一个假设发生的概率,如果这个假设发生(为真)的概率很低的话,那么我们就不考虑(舍弃),如果发生概率很高,那么OK,我们就任务这个假设是有可能发生的(接受)
懂了什么叫假设检验之后,这个作业的完成就有了思路,按照《极简统计学》里面的算法,可以用简单的计算来完成。
如果我们有 N 枚硬币的话,把这些硬币投掷无数次,每次正面的次数是正态分布的,分布的均值为 N/2,标准差为√N/2。
所以假设 N=100中,平均值为50,方差为5
-1.96 ≤ (x-50)/5 ≤ 1.96
40.2 ≤ x ≤ 59.8
57在这个区间,因此接受这个假设。
习题2: 随机抽取30个 GRE 成绩,平均分数为1082分,标准差为108分,决定下列参数的96%和99%置信区间
1)总体均值
2)总体标准差
这是一个已知样本均值和样本标准差和样本数,推测总体均值和总体标准差的问题。
1) 总体均值,为自由度为(n-1)=29的 t 分布
95%的置信区间查表得
-2.045 ≤ T ≤ 2.045
T = [(1082 - μ)√29 ]/108
-2.045 ≤ [(1082 - μ)√29 ]/108 ≤ 2.045
1041 ≤ μ ≤ 1123
99%的置信区间查表得
-2.756 ≤ T ≤ 2.756
T = [(1082 - μ)√29 ]/108
-2.756 ≤ [(1082 - μ)√29 ]/108 ≤ 2.756
1027 ≤ μ ≤ 1137
2) 总体标准差,为自由度为(n-1)=29的卡方分布
95%的置信区间查表得
16.05 ≤ W ≤ 45.72
W = 30 × 108² / σ²
16.05 ≤ 30 × 108² / σ² ≤ 45.72
87.48 ≤ σ ≤ 147.65
99%的置信区间查表得
13.12 ≤ W ≤ 52.34
W = 30 × 108² / σ²
13.12 ≤ 30 × 108² / σ² ≤ 52.34
81.77 ≤ σ ≤ 163.32
本文为 泰阁志-解密大数据 学习笔记,了解更多请关注微信“泰阁志”
网友评论