统计概率思维-描述统计分析
1# 为什么要学统计学?
- 人工智能的基础知识
- 投资领域的必备知识
- 时代的入口
2# 描述统计分析
2.1 描述统计学定义
● 将复杂的数据集简化,总结出可以起到高度概括、有代表性、能够起到描述作用的数字。
2.2 描述统计常用指标
平均值
● 例子:A,B,C,D收入分别为10,11,12,13万元,人均收入为(10+11+12+13)/4=11.5万元
但是也有缺点,就是当数据中有异常值(极大或者极小)则用平均值结果来描述数据集是不准确的,如把D的收入替换成10亿元,那么人均收入约等于29000万元,虽然说这样的描述没有错误,但是不能正确体现数据集的特征(A,B,C的收入没有那么高)。
中位数
● 中位数计算方法:
- 按从小到大顺序排列数据
- 计算中间位置(假设有N个数,如果N是奇数则是中间数值,如果N是偶数则是中间两个数的平均值)
● 例子:找出5,7,3,8的中位数
- 从大到小排列3,5,7,8
- 计算中间位置,因为N=4,则其中位数是(5+7)/2=6
四分位数
](https://img.haomeiwen.com/i2352533/320a346b0fd6f977.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
● 四分位数的计算方法:
- 找到中位数(叫做Q2)
- 求出中位数左边部分的中位数(叫做Q1,成为下四分位数)
- 求出中位数右边部分的中位数(叫做Q3,成为上四分位数)
● 可视化例子(箱线图):
● 可视化例子2(比较不同类型数据集的数据分布情况)
横轴x是对数据分析师需求top6的城市,纵轴y是薪资情况。
结论:深圳的工资水平较高,行业顶薪也是位居六大城市之首。
横轴x是对数据分析师参与工作年数,纵轴y是薪资情况。
结论:数据分析师的薪资水平随着工作年限增长,在3-5年阶段增长、跨度尤为明显。
● 识别异常值(极大或者极小的值)
处理方法:
- 对错误数据进行修正
- 对错误数据删除
- 确认出异常值符合现实以后,选择保留
● Turkey‘s test
- 最小估计值:Q1-k(Q3-Q1)
- 最大估计值:Q3+k(Q3-Q1)
-
如果K=1.5 中度异常;K=3 极度异常
案例(识别出温度中的异常值):
● 总结箱线图(四分位数)优点:避免受到异常值的影响;通过turkey test识别异常值
● 总结箱线图(四分位数)的局限:无法告诉数据集的波动
标准差
● 概念打通
标准差就是计算出数据相对于平均值的波动大小,也就是衡量出一组数据的离散程度(波动大小)
离散程度=变异性=波动大小
● 标准差计算方法
方差算法:
u等于一组数据的平均值
也可以是下面的式子:
Ps:这里用平方的原因是有时候数字和平均数的偏离是反向偏离(负数),如果不进行平方可能就和正向偏离抵消。
标准差算法:
● 案例分析(哪个nba球员更加稳定):
可以推到出结论:球员1加内特的发挥更加稳定,球员2库里的发挥波动比较大
● 标准差需要注意的两个问题
- 标准差的单位
和前面引入数据的单位是相同的 - 标准差是大一点好还是小一点好
要看具体的数据,如生产零件那么标准差小好;公司的工资分布应该要是比较大的标准差好
标准分
● 标准分的定义
选定值和平均值相差多少个的标准差
如果标准分=0,那就就是=平均值,标准分>0则是>平均值
● 计算方法
使用平均值u和标准差σ计算出来
● 案例(摩托罗拉6σ管理)
距离平均值6个标准差σ,相当于6个标准差就是每百万件抽样中,有3.4个不合格
总结
网友评论