数据的集中趋势
众数
是一组数据中出现次数最多的数值,有可能没有也有可能有多个。
中位数
中位数,又称中点数,中值。中位数是按顺序排列的一组数据中居于中间位置的数,即在这组数据中,有一半的数据比他大,有一半的数据比他小。中位数一定存在。
特点
1.中位数是以它在所有标志值中所处的位置确定的全体单位标志值的代表值,不受分布数列的极大或极小值影响,从而在一定程度上提高了中位数对分布数列的代表性
2.有些离散型变量的单项式数列,当次数分布偏态时,中位数的代表性会受到影响。
偏态:偏态(skewness)是指非对称分布的偏斜状态。换句话说,就是指统计总体当中的变量值分别落在众数(M0)的左右两边,呈非对称性分布。
3.趋于一组有序数据的中间位置
分位数
分位数,亦称分位点,是指用分割点将一个随机变量的概率分布范围分为几个具有相同概率的连续区间。分割点的数量比划分出的区间少1,例如3个分割点能划分出四个区间。
常见的有中位数(即二分位数)、四分位数、十分位数、百分位数等。
定义:分位数指的就是连续分布函数中的一个点,这个点对应概率p
四分位数:
第一四分位数,又称较小四分位数,等于该样本中所有数值由小到大排列后第25%的数字。
第二四分位数,又称中位数,等于该样本中所有数值由小到大排列后第50%的数字。
第三四分位数,又称较大四分位数,等于该样本中所有数值由小到大排列后第75%的数字。
第三四分位数与第一四分位数的差距又称四分位距。
平均数
定义:平均数是统计学中最常用的统计量,用来表明资料中各观测值相对集中较多的中心位置。
为集中趋势的最常用测度值,目的是确定一组数据的均衡点
算术平均数
是表征数据集中趋势的一个统计指标。 它是一组数据之和,除以这组数据个数/项数。
算术平均数在统计学上的优点,就是它较中位数、众数更少受到随机因素影响, 缺点是它更容易受到极端值影响。
计算公式为:
加权平均数
加权平均数与算术平均数类似,不同点在于,数据中的每个点对于平均数的贡献并不是相等的,有些点要比其他的点更加重要。
如果所有的权重相同且等于一,那么加权平均数与算术平均数相同
加权平均数作为算术平均数的更广义的表现形式,加权平均数具有一些看起来违反常理的性质,例如辛普森悖论。
术语加权平均数通常指的是加权算术平均数,但是其他平均数的加权版本也可以计算出来,例如加权几何平均数和加权调和平均数。
辛普森悖论:当人们尝试探究两种变量是否具有相关性的时候,会分别对之进行分组研究。然而,在分组比较中都占优势的一方,在总评中有时反而是失势的一方。
几何平均数
在数学中,几何平均数 是一种均值,它通过使用它们的值的乘积(与使用它们的和的算术平均数相反)来指示一组数字的集中趋势或典型值。几何平均数定义为第n根个数的乘积的第n个根,即对于一组数字x1,x2,x3....xn, 几何平均数定义为:
当每个项目具有多个具有不同数值范围的属性时,几何平均数经常使用在比较不同项目,为这些项目找到单个品质因子。例如,几何平均数可以给出有意义的“平均数”以比较两家公司的环境可持续性评分为0到5,并且其财务可行性评级为0到100。如果使用算术平均数而不是几何平均数,则财务可行性给予更多权重,因为其数值范围更大 - 因此财务评级的一小部分变化(例如从80变为90)会产生更大的差异。算术平均数比环境可持续性的大比例变化(例如从2到5)。使用几何平均数“归一化”被平均的范围,使得没有范围支配加权,并且任何属性中的给定百分比变化对几何平均数具有相同的影响。因此,没有范围控制加权, 和给定的百分比变化的任何属性对几何平均数有相同的影响。因此,从 4 到 4.8,20% 的环境可持续性变化对几何平均数的影响与从 60 到 72 的财务可行性的 20% 变化有同样的效果。
几何平均数可以根据几何形状来理解。两个数字a和b的几何平均数是正方形一边的长度,其面积等于以a和b为两边的矩形的面积。同样, 三个数字, a、 b和c的几何平均数是立方体一个边的长度,其体积与以a、b和c为边的长方体的体积相同。
几何平均数仅适用于正数。它也经常用于一组数位,它们的值是用来相乘的,或者是指数性质的.
几何平均数也是三个最经典的毕达哥拉斯平均的其中一个,与前面提到的算术平均数和下边提到的调和平均数一起。对于包含至少一对不等数的所有正则资料集,调和平均数始终是三种方法中最小的,算术平均数始终是三中最大的,而几何平均数始终介于两者之间 。
调和平均数
调和平均数:是求一组数值的平均数的方法中的一种,一般是在计算平均速率时使用。
调和平均数是将所有数值取倒数并求其算术平均数后,再将此算数平均数取倒数而得,其结果等于数值的个数除以数值倒数的总和。一组正数x1, x2 ... xn的调和平均数H其计算公式为:
极差
又称全距:用来表示统计资料中的变异量数,为最大值与最小值之间的差额,即最大值减最小值后所得数值。
变异量数:变异量数亦称差异量数,又称离散趋势量数,它是统计学的基本概念之一,是表示样本数据偏离中间数值的趋势的量数,或者说它是反映样本频率分布离散程度的量数。差异量数大,表示各数值分布的范围广且参差不齐;差异量数小,表示各数值较集中、整齐,波动的范围幅度小。因此,集中量数的代表性如何,可由差异量数反映。差异量数愈大,则集中量数的代表性愈小;差异量数愈小,则集中量数的代表性愈大
数据的离中趋势
数值型数据:
方差
方差:在概率论和统计学中,一个随机变量的方差描述的是它的离散程度,也就是该变量离其期望值的距离
将各个误差将之平方(而非取绝对值,使之肯定为正数),相加之后再除以总数,透过这样的方式来算出各个数据分布、零散(相对中心点)的程度。
特性:
1.方差不会是负的,因为次方计算为正的或为零
Var(x) >= 0
2.一个常数随机变量的方差为零,且当一个资料集的方差为零时,其内所有项目皆为相同数值
P(X = a) = 1 <=>Var(X) = 0
3.方差不变于定位参数的变动。也就是说,如果一个常数被加至一个数列中的所有变量值,此数列的方差不会改变
Var(X + a) = Var(X)
4.如果所有数值被放大一个常数倍,方差会放大此常数的平方倍
Var(aX) = a^2Var(X)
5.两个随机变量和的方差为
Var(aX + bY) = a^2Var(X) + b^2Var(Y) + 2abCov(X,Y)
Var(X - Y) = Var(X) + Var(Y) - 2Cov(X,Y)
Cov代表协方差
标准差
在概率统计中最常使用作为测量一组数值的离散程度之用。标准差定义:为方差开算术平方根,反映组内个体间的离散程度;标准差与期望值之比为标准离差率。测量到分布程度的结果,原则上具有两种性质:
1.为非负数值(因为开平方后再做平方根);
2.与测量资料具有相同单位(这样才能比对)。
简单来说,标准差是一组数值自平均值分散开来的程度的一种测量观念。一个较大的标准差,代表大部分的数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。例如,两组数的集合{0, 5, 9, 14}和{5, 6, 8, 9}其平均值都是7,但第二个集合具有较小的标准差。
极差
又称全距:用来表示统计资料中的变异量数,为最大值与最小值之间的差额,即最大值减最小值后所得数值
平均差
定义:平均差是总体所有单位与其算术平均数的离差绝对值的算术平均数
描述:平均差异大,表明各标志值与算术平均数的差异程度越大,该算术平均数的代表性就越小;平均差越小,表明各标志值与算术平均数的差异程度越小,该算术平均数的代表性就越大。因离差和为零,离差的平均数不能将离差和除以离差的个数求得,而必须将离差取绝对数来消除正负号。平均差是反应各标志值与算术平均数之间的平均差异。
公式:
顺序数据:
四分位差
四分位数中第三四分位数与第一二分位数的差,又称四分位距。
分类数据:
异众比率
异众比率是统计学名词,是统计学当中研究现象离中趋势的指标之一。异众比率指的是总体中非众数次数与总体全部次数之比。换句话说,异众比率指非众数组的频数占总频数的比例。
相对离散程度
离散系数
标准离差率(变异系数或单位风险或离散系数):
定义:是概率分布离散程度的一个归一化量度,其定义为标准差与平均值之比
变异系数(coefficient of variation)只在平均值不为零时有定义,而且一般适用于平均值大于零的情况
变异系数只对由比率标量计算出来的数值有意义。举例来说,对于一个气温的分布,使用开尔文或摄氏度来计算的话并不会改变标准差的值,但是温度的平均值会改变,因此使用不同的温标的话得出的变异系数是不同的。也就是说,使用区间标量得到的变异系数是没有意义的
优点:
比起标准差来,变异系数的好处是不需要参照数据的平均值。变异系数是一个无量纲量,因此在比较两组量纲不同或均值不同的数据时,应该用变异系数而不是标准差来作为比较的参考。
缺点:
1.当平均值接近于0的时候,微小的扰动也会对变异系数产生巨大影响,因此造成精确度不足。
2.变异系数无法发展出类似于均值的置信区间的工具。
分布的形状
偏态系数
定义:偏态系数以平均值与中位数之差对标准差之比率来衡量偏斜的程度,用SK表示偏斜系数:偏态系数小于0,因为平均数在众数之左,是一种左偏的分布,又称为负偏。偏态系数大于0,因为均值在众数之右,是一种右偏的分布,又称为正偏。
描述:偏态系数是根据众数、中位数与均值各自的性质,通过比较众数或中位数与均值来衡量偏斜度的,即偏态系数是对分布偏斜方向和程度的刻画
三种情况:
零值:偏态系数的取值为0时,表示数据为完全的对称分布
正值:偏态系数的取值为正数时,表示数据为正偏态或右偏态
负值:偏态系数的取值为负数时,表示数据为负偏态,或左偏态
注意:偏态系数的绝对数值越小,表示数据偏倚的程度越小;偏态系数的绝对数值越大,表示数据偏倚的程度越大
峰态系数
峰度又称四阶标准矩,通常被定义为四阶累积量除以二阶累积量的平方,它等于四阶中心矩除以概率分布方差的平方再减去3。
公式:
这也被称为超值峰度。“减3”是为了让正态分布的峰度为0。
如果超值峰度为正,称为尖峰态;如果超值峰度为负,称为低峰态。
网友评论