美文网首页
大数据中的统计学基础——Day1

大数据中的统计学基础——Day1

作者: XaviSong | 来源:发表于2020-08-14 18:29 被阅读0次

    本章内容

    1. 统计学分类
    2. 均值、中位数、众数
    3. 方差、标准差
    4. 直方图
    5. 箱线图
    6. 茎叶图
    7. 线图
    8. 柱形图
    9. 饼图

    一、统计学的分类

    描述统计学:

    使用特定的数字或图表来体现数据的集中程度和离散程度。例:每次考试算的平均分,最高分,各个分段的人数分布等,也是属于描述统计学的范围。

    推断统计学:

    根据样本数据推断总体数据特征。例:产品质量检查,一般采用抽检,根据所抽样本的质量合格率作为总体的质量合格率的一个估计。

    区别在于是否使用了全部的数据来描述这一批数据

    二、均值、中位数、众数

    这三个值描述了一组数据的集中趋势。对于一组数据,如果只容许使用一个数字去代表这组数据,那么这个数字应该如何选择??——选择数据的中心,即反映数据集中趋势的统计量。

    均值:

    算术平均数,描述平均水平。

    中位数:

    —将数据按大小排列后位于正中间的数描述,描述中等水平。 若处于中间位置的数据有两个(也就是数据的总个数为偶数时),中位数为中间两 个数的算术平均数。

    众数:

    数据中出现最多的数,描述一般水平。一组数据中,可能会存在多个众数,也可能不存在众数。众数丌仅适用于数值型数据,对于非数值型数据也同样适用。{苹果,苹果,香蕉,橙,橙,橙,桃}这一组数据,没有什么均值中位数可言,但是存在着众数——橙。

    总结:
    对于不同类型的数据,三个值的位置变化:

    三、方差、标准差

    这两个量解决的是如何描述一组数据的离散程度。

    极差:最大值 - 最小值

    也是一种描述离散程度的量,但是存在不足:如:A——1 2 5 8 9,B——1 4 5 6 9。这两组数据的离散程度明显是不一样的。

    方差:

    在统计学上,更常使用方差来描述数据的离散程度,数据离中心越远越离散。

    简化方差公式:

    方差有总体方差与样本方差之分:

    为了保证衡量离散程度的量与原数据单位相同,使用标准差来避免因单位平方引起的度量问题。与方差一样,标准差越大数据越分散。

    四、直方图

    以学生成绩为例:

    根据频数分布表,可以画出频数直方图。频数作为纵坐标,成绩作为横坐标。

    除了频数直方图,还有另一种直方图——频率直方图。与频数直方图相比,频率直方图的纵坐标有所改变,使用了频率/组距。

    频率=频数/总数;组距就是分组的极差,这里组距是10(可以是100-90=10,也可以使90-80= 10等)

    五、箱线图

    • 下四分位数:Q1,将所有数据按照从小到大的顺序排序排在第25%位置的数字
    • 上四分位数:Q3,将所有数据按照从小到大的顺序排序排在第75%位置的数字
    • 四分位距:IQR,等于Q3-Q1,衡量数据离散程度的一个统计量
    • 异常点:小于Q1-1.5IQR或大于Q3+1.5IQR的值
    • 上边缘:除异常点以外的数据中的最大值
    • 下边缘:除异常点以外的数据中的最小值
    假设有如下一组数据:

    53 53 61 61 63 65 67 67 69 69 69 70 70 71 74 75 75 76 77 78 79 80 81 81 81 81 82 84 85 86 87 87 87 88 89 90 91 91 94 95

    对于上述数据,Q1=69;Q3=86.5;IQR=86.5-69=17.5; Q1-1.5IQR=42.75; Q3+1.5IQR=112.75;所以没有异常点。上边缘就是95,下边缘就是52

    示例:
    简单画法:
    数据:8 2 3 7 4 9 6 9 4 3
    1. 排序:2 3 3 4 4 6 7 8 9 9
    2. 找出中位数:(4+6)/2=5
    3. 分别找出前半部分不后半部分的中位数——下四分位数不上四分位数:3不8
    4. 判断异常点:3-1.5*(8-3)=-4.5;8+1.5*(8-3)=15.5;没有异常点
    5. 找出最大值不最小值:2不9
    6. 在3到8之间画一个箱子,分别用箭头指向2,9
    

    六、茎叶图

    七、线图

    八、柱形图

    柱形图:显示一段时间内的数据变化或显示各项之间的比较情况

    与直方图的区别:
    • 从横坐标看,直方图是同一个变量的分组划分,而柱形图则是不同的组别
    • 从作用上看,直方图用于显示一组数据的分布情况,而柱形图则是用于比较不同组别的数据差异

    九、饼图

    根据各项所占百分比决定在饼图中的扇形面积。简单易懂,通俗明了,可以更加形象地看出各个项目所占的比例大小。

    相关文章

      网友评论

          本文标题:大数据中的统计学基础——Day1

          本文链接:https://www.haomeiwen.com/subject/mclndktx.html