数据类型:
分类变量:(在分析分类变量时,我们通常只看属于一个类别之级别的计数或比例。例如,如果狗类别有两个级别: 拉布拉多和非拉布拉多。我们可以说,32% 的狗是拉布拉多(百分比),或者可以说我看到的 100 只狗中,有 32 只是拉布拉多(计数)。)
定类变量
定序变量
数值变量:(1、集中趋势测量2、离散程度测量3、分布的形状 4、异常值)
连续数值
离散数值
集中程度的度量:1、均值 2、中位数 3、众数
离散程度的度量:1、值域 2、四分位差 3、标准差 4、方差
方差的计算方法:
1、离散程度测量告诉我们数据之间的分散程度。常见的离散程度测量有:
1、值域
2、四分位差(IQR)
3、标准差
4、方差
2、直方图:对于了解数值数据的不同方面是非常有用的,可以帮助我们理解有关数值变量的4个方面:
1、集中趋势
2、离散程度
3、形状
4、异常值
3、五数概括法:
1、最小值:数据集中的最小值
2、Q1(第一个四分位数):排序后数据第25%处的值。
3、Q2(中位数):排序后数据第50%处的值。
4、Q3(第三四分位数):排序后数据第75%处的值。
5、最大值:数据集中的最大值。
值域:
值域为最大值和最小值之间的差值。
四分位差:
四分位差为Q3和Q1之间的差值
4、标准差和方差
标准差是最常见的数据离散程度度量之一。它的定义为每个观察值与均值之间的平均差异。
1、方差用于比较两组不同数据的离散程度。方差较高的一组数据相比方差较低的一组数据,其分布更为广泛。但是注意,有可能只有一个(或者多个)异常值提高了方差,而大多数数据实际上比较集中。
2、在比较两个数据集之间的离散程度时,每个数据集的单位必须相同
3、当数据与货币或者经济有关时,方差(或者标准差)更高表示风险更高
4、在实践中,标准差比方差更常用,因为它使用原始数据集的单位。
我们使用以下方式计算方差:
方差是每个观察值与均值之差的平方值的平均数。标准差是方差的平方根。因此,标准差的计算如下所示:
标准差是与我们的其余数据具有相同单位的度量,方差的单位是原始数据的平方。
△两组数据对比时,数据的单位必须一致
5、分布形状:
直方图形状:
1、右偏态
2、左偏态
3、对称分布(通常是正态分布)
形状均值与中位数现实世界中的应用
6、异常值
常用技术
1、注意到他们的存在以及对概括性度量的影响。
2、如果打印错误--删除或者改正。
3、了解他们为什么会存在,以及对我们要回答的关于异常值的问题的影响。
4、当有异常值时,报告五数概括法的值通常能比均值和标准差等度量更好地体现异常值的存在。
5、报告时要小心。知道如何提出正确的问题。
异常值处理建议:
1、绘制你的数据已确定是否有异常值。
2、通过以上方法处理异常值。
3、如果无异常值,且数据遵循正态分布,使用均值和标准差来描述数据集,并报告数据为正态分布。
4、如果有偏态数据或异常值,则使用五数概括法来概括数据并报告异常值。
边注
如果你不确定你的数据是否是正态分布,有一种称为正态分位图 normal quantile plots 的图,以及类似Kolmogorov-Smirnov 检验的统计方法可以帮助你理解你的数据是否是正态分布。实现这个检验不是本课程的教学内容,但可以稍作了解。
7、描述统计与推论统计
描述统计:
描述统计是用来描述收集的数据。
推论统计:
推论统计在于使用我们收集的数据对更大的总体数据得出结论。
1、总体---我们想要研究的整个群体
2、参数---描述总体的数据摘要
3、样本---总体的子集
4、统计量---描述样本的数值摘要
5、根据统计量得出关于参数的结论成为推论
网友评论