统计学:收集数据、整理分析数据和由数据得出结论的一组概念、原则和方法
目的:总结、解释历史数据的变化规律;根据历史经验预测未来
手段:
1.描述性统计:利用表格、图形或者数值(数值特征)来展示和刻画数据中的信息
2.推断性统计:利用样本获得的数据对总体的性质进行估计或者检验。总体的性质通常用概率模型刻画
本质:
以抽样的方式统计性地抽取一部分调查对象,然后根据样本中所包含的信息对总体的状况进行估计和推算。(推算结果都跟着一个概率值)
关键概念:
• 4种测量尺度
名义(定类)尺度、顺序(定序)尺度、间隔(定距)尺度、比例(定比)尺度4个尺度。
定类和定序:只用到频次统计;定距和定比:用到频次统计、均值统计和标准差
• 集中趋势
均值、中位数、众数。
均值:
算数平均:数据的合计÷数据的个数
几何平均(相乘平均):n哥数字乘积的n次方跟的整数值;需要限制数据为正数才能计算。
调和平均:数据的个数÷数据的倒数的和,计算数组、象限、序列等下限值附近的频数较高时使用;可能用在数据中心较多数值聚集在最小值附近,原因可能是因为调和平均相对于算数、集合平均值最小
调整平均:从上限值和下限值中去掉一定比例的数据后剩下的数据的算数平均。可以去除一定比例(通常5%)的最大最小值的原因是:这些值可能是异常值
中位数:数据由小到大排列时居于中间的值 。
1.当一组序列数据间差异较大时,导致平均值代表性娇弱,可通过中位数来表示数据的集中趋势。
2.平均值和中位数通常应用在连续变量中,即数值型变量
众数:出现次数最多的值;
1.众数即可以用在分类变量里,也可用在连续变量里
• 离散趋势
频数分布、标准差、方差、四分位差、百分位数、极差、离差平方和、离散系数。
网友评论