数据的图标展示
品质数据整理与展示
频数分布,分类数据图示(条形——帕累托图,饼图——环形图),顺序数据(累计频数)
数值型数据整理与展示
1数据分组
按变量分组与按组距分组:
基础知识:上组限与下组限,组距的求得=(max-min)/组数,组数一般[5,15],上组限不在内原则,组中值的取得=(下限+上限)/2,用组中值代表一组数据的关键假设,各组数据在本组均匀分布在组中值两侧呈对称分布
2图示
分组数据采用直方图
未分组采用茎叶图和箱线图(离群点用〇表示)
时间序列:线图
多变量:散点,气泡,雷达
数据的概括性度量
集中度测量
分类数据:众数;顺序数据:中位数和分位数;数值型数据:平均数(加权,简单平均,几何平均,用于计算平均比率)
众数与中位数,平均值的比较:
左偏与右偏对应三者之间的关系应当是中位始终不变,左偏均值降众数升,右偏反之。
离散度测量
分类数据:异众比率
非众数组的频率占到总频数的比率
顺序数据:四分位差
上四分位-下四分位,越小,意味着越两者离中位数越接近,即集中度更高
数据值型数据:方差与标准差
极差=max-min
平均差:平均绝对离差
方差:未分组与分组,注意样本方差的自由度为样本数-1(从向量角度,任何一个n维向量可以由n-1个向量表示)
标准差:具有量纲
标准分数:z=(变量值-均值)/标准差,消除量纲差异
切比雪夫不等式:至少有(1-1/k^2)的数据落在±k个标准差之内,其中k大于1
相对离散程度:离散系数
离散系数又称变异系数:标准差与均值的比。
偏态与峰态度量
偏态系数sk,1<sk或sk<-1,高度偏态;0.5<sk<1或-1<sk<-0.5,中等偏态;接近0对称性越高。正值为右偏,反之为左偏
峰态系数k,k>0,尖峰分布,k<0,扁平分布,参照标准正太
网友评论