美文网首页
第一课 基本概念

第一课 基本概念

作者: Neolibo | 来源:发表于2018-01-29 17:31 被阅读0次

    根据前几天一个小项目的经验,目前发现书确实读得太少,所以现在下定决心对统计和数据挖掘进行系统性的学习,当然也是快速的,因为没有学生那样有那么多的时间。

    集中趋势
    均值——算术平均数,描述平均水平
    中位数——将数据按大小排列后位于正中间的数描述,描述中等水平
    众数——数据中出现最多的数,描述一般水平

    中位数-中间位置的数
    例:58,32,46,92,73,88,23
    1. 先排序:23,32,46,58,73,88,92
    2. 找出处于中间位置的数:23,32,46,58,73,88,92。三个数字比58小,三个数字比58大
    例:58,32,46,92,73,88,23,63——多加了一个数字,情冴有何改变?
    1. 先排序:23,32,46,58,63,73,88,92
    2.找出处于中间位置的数:23,32,46,58,63,73,88,92
    3. 若处于中间位置的数据有两个(也就是数据的总个数为偶数时),中位数为中间两个数的算术平均数:(58+63)/2=60.5——原数据中,四个数字比60.5小,四个数字比60.5大。

    众数-出现最多的数
    1 2 2 3 3 中的众数是2和3
    1 2 3 4 5 中没有众数

    均值-充分利用所有数据,适用性强-容易受到极端值影响
    中位数-丌受极端值影响-缺乏敏感性
    众数-当数据具有明显的集中趋势时,代表性好;丌受极端值影响-缺乏唯一性:可能有一个,可能有两个,可能一个都没有

    image.png

    离散程度描述
    比较下面两组数据:
    A——1 2 5 8 9 B——3 4 5 6 7
    两组数据的均值都是5,但是可以看出B组的数据不5更加接近。但是有描述集中趋势的统计量丌够,需要有描述数据的离散程度的统计量
    极差:最大值-最小值,简单地描述数据的范围大小
    A:9-1=8;B:7-3=4
    同样的5个数,A的极差比B的极差要大,所以也比B的要分散
    但是只用极差这个衡量离散程度也存在丌足
    如:A——1 2 5 8 9 B——1 4 5 6 9
    方差
    在统计描述中,方差用来计算每一个变量(观察值)与总体均数之间的差异。为避免出现离均差总和为零,离均差平方和受样本含量的影响,统计学采用平均离均差平方和来描述变量的变异程度。总体方差计算公式:

    image image

    为总体方差,

    image

    为变量,

    image

    为总体均值,

    image

    为总体例数。

    image.png
    标准差
    标准差(Standard Deviation) ,中文环境中又常称均方差,是离均差平方的算术平均数的平方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。
    image.png

    然后注意几个图
    直方图
    箱型图


    image.png

    相关文章

      网友评论

          本文标题:第一课 基本概念

          本文链接:https://www.haomeiwen.com/subject/xfxfzxtx.html