美文网首页
统计学--2.统计学基础概念

统计学--2.统计学基础概念

作者: 小猪与城 | 来源:发表于2019-03-28 13:59 被阅读0次

    简述

    简述统计学基础概念,均值,异常值,中位数,众数,方差,四分位数,标准分的概念。以及应用和为什么会有这么多概念。(我都不知道自己在干啥,为啥要从头开始,我不是小学或者初中生(ಥ_ಥ))

    故事从均值开始

    均值是数据中比较有代表性的数值,也是汇总数据常用的方式。离散的点均值计算方法为,把所有点的值相加,并除以点的个数:X_1,X2,,,Xn一共是n个数,均值\mu等于: \mu=\frac {X_1+X_2+...+X_n} {n}
    有了均值之后人们在应用中发现均值还不能完全的描述数据。例如我想买一个适合青年人玩儿的游戏,我看了3款游戏的均值,一款均值15,一款25,一款35。然后我买了25的,发现被均值骗了,里面都是小学生带着老爷爷在玩儿。为什么会出现这种情况,我们来看看数据:
    13,12,12,12,12,15,60,64 这是我挑选的游戏的玩家的年龄。一共8个人,均值可以计算\mu=(13+12*4+15+60+64)/8=25 但是实际上在这款游戏里根本没有与我年龄相近的人。因为这里面存在异常值。60,64 就是异常值。异常值就是在数据中存在的极值,这些极值会使数据偏斜,导致均值发生变化而缺失均值的代表性。

    中位数的引入

    为了避免异常值的影响,在均值的基础上,我们引入了中位数,中位数就是处于中间位置的数。 求法如下:
    1.先把离散的数据都从小到大排序。
    2.如果有n个数,且n为奇数, 中位数的位置为:(n+1)/2
    3.如果有n个数,且n为偶数,中位数为两个中间数a,b的加和除以2. 即(a+b)/2
    a和b的计算方法为:a=n/2, b=n/2 +1

    然后来计算刚刚那组数据的中位数,先排序:
    12,12,12,12,13,15,60,64
    一共8个数,n = 8,为偶数,求出两个中间数a,b。
    a=n/2=8/2=4, b=n/2 +1 =5
    所以两个中间数的位置是 4和5,从第一个数开始数,第四个数是12,第五个数是13
    所以中位数为 : (12+13)/2=12.5
    从以上结果可以看出中位数,帮我们加强了数据的准确度。如果当时知道均值是25 中位数是12.5 我绝对不会去选择这个游戏。

    众数的引入

    我继续买游戏,这次我不光看均值,还看中位数。我发现了一款游戏,均值20,中位数也是20,于是我加入了,然后发现被均值和中位数一起骗了。来看看这次的数据:
    7,7,7,8,32,33,33,33
    通过计算可以得出,均值和中位数确实是20,但是数据里面并没有20岁的人。为了避免这种情况发生,就有了众数众数就是频数最大的数值,一般取一个或两个来检验数据。在这组数据中,7出现了3次(7的频数为3,后面以此类推),8出现1次,32出现1次,33出现3次,所以众数为7和33。
    这组数据的均值是20,中位数是20,众数是7和33 说明这组数据大多数都是由小孩和家长组成,如果我提前知道的话,也就不会去买这款游戏了。另外,我们举的例子是典型的双峰数据,数据的密度图如下:

    双峰数据
    P.S:
    当原本数据都加上数值X时,均值,众数,中位数都会变,也都加上X,得到新的均值,众数,中位数。当原本数据都增加X%的时候,均值,众数,中位数也都会变,也都增加X%,得到新的均值,众数,中位数。

    相关文章

      网友评论

          本文标题:统计学--2.统计学基础概念

          本文链接:https://www.haomeiwen.com/subject/ibzfbqtx.html