内容导入:
大家好,这里是每天分析一点点。本期介绍描述性统计指标与分布的基本关系,包括分布的基本类型,集中趋势与分布的关系,离散趋势与分布的关系,再结合国民收入案例探讨分布与描述性统计分析在实际生活的应用。文章内容适合数据分析小白,内容深入浅出,案例贴合实际。下期给大家介绍偏度系数,欢迎大家关注。
概念介绍:
分布的类型:
上期主要给大家介绍了正态分布,其实除了正态分布,还有很多的分布类型,今天就给大家科普一下。标准的二分布、均匀分布这样的古典概型产生的分布,在这里就不一一给大家介绍了。本次介绍的分布,也是统计中较为常用的类型。
第一、T分布。
如果已知等待分析的总体服从正态分布,从总体中抽取容量为n的所有可能样本,对每个样本都计算出它们相应的T统计量,则所有T统计量的值将组成一个连续型概率分布,这个分布就是T分布,T分布的概率密度函数为:
t代表T统计量的值;v表示自由度,等于样本容量n减去1; c为常数,使T分布函数曲线下的面积等于1。
T分布有什么功能呢?大家是否听说过系数T检验,样本T检验。T分布可以用来判断两个连续变量的显著性,经常用于判断线性回归中的系数是否显著,如果不显著,需要剔除该变量重新拟合。一般情况是T检验的双侧P值小于5%,视为显著,大于5%视为不显著。比如身高与年龄是否有显著性关系,GDP与投资是否有显著性关系。
第二、卡方(χ2 )分布。
若n个相互独立的随机变量ξ₁,ξ₂,...,ξn ,均服从标准正态分布,则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布。概率密度函数:
X2代表卡方统计量;e是自然底数,等于2.72; v代表自由度,等于样本容量n-1; c代表调节常数,使得卡方分布曲线下方的总面积等于1。
卡方分布,是用来检测方差的,通常检验一个变量两个类型的方差是否显著,通常用于逻辑回归中。举个例子,一个班共60个人,男的35人,女的25人,分析男女身高水平是否有显著差异,将60个身高数据用男女分开,然后应用卡方分布进行检验。一般情况是卡方检验的双侧P值小于5%,视为显著,大于5%视为不显著。二分类逻辑回归的显著性检验,应用的就是卡方检验。
第二、F分布。
两个正态分布总体之间的方差关系。
F统计量其实可以被认为是由两个卡方(χ2)统计量相除得到的,一般情况是默认将卡方值较大的总体作为分母,卡方值较小的总体作为分子。概率密度函数为:
v1表示F统计量分子的自由度; v2表示F统计量分母的自由度;c代表修正常数,它使得F分布曲线下方的总面积等于1。
F分布又是用来干什么的呢?做数据分析的你一定用过,但是你未必知道,F检验可以用来检验方差和函数,是的,检验函数,线性回归与逻辑回归的模型显著性,就可以用F分布进行检验。一般情况是F检验的双侧P值小于5%,视为显著,大于5%视为不显著。
分布与描述性统计分析的关系:
上期问了大家几个问题,如何描述频度分布图的特点呢?
1、左边数据多还是右边数据多?
2、左边陡峭还是右边陡峭?
3、是否存在极大极小的离群值?
4、是‘凸’的还是‘凹’的?
5、总体的形状像什么?
分布的数据特点已经相关的作用刚才已经给大家介绍了。分布的形状、陡峭程度、离群值特点与描述性通过相关指标有关。接下来,我们来进行具体的了解。
集中趋势与分布的关系:
经过前几期的了解,我们知道平均值、中位数、众数是集中趋势的指标。但是,并不是所有数据中,平均值与中位数都代表这数据的集中趋势。例如,想正态分布这样的倒U型分布数据,平均值、中位数、众数就可以代表数据的集中趋势。形如U型的数据分布,只有众数代表集中趋势,比如49个1,49个99,1个50这样的数据,平均值中位数是50,众数是1和99,这个时候只有众数代表数据集中趋势。
另外,平均值、中位数、众数的位置,与分布图形的左右形状有关,当均值小于中位数小于众数时,分布形状是右边隆起,左边有长长的尾巴;当均值大于中位数大于众数时,分布形状是左边隆起,右边有长长的尾巴。
离散趋势与分布的关系:
离散趋势的指标是极差、方差与标准差,这次我们主要讨论标准差。刚才给大家讲了数据向左,或者向右移动的指标判断方式;现在给大家介绍分布是‘凸’的还是‘凹’的指标。在所有分布中,都是方差越大,数据分布越‘凸’,方差越小,数据分布越‘凹’。如何判定方差是大是小呢?参照相同均值的正态分布即可。
而且,‘凸’与‘凹’还有更进一步的应用。‘凸’代表众数比较集中,并且两端急速下降,展现出来后发现两侧的值与集中的值相差很大,也就意味着,存在着离群值,具体离群值在大的一边还是小的一边,结合数据分布的偏向就可以看出来。‘凹’代表众数不是很集中,两边下降平缓,数值差距不大,意味着数据没有明显离群值。
大家看明白了吗?没关系,我们贴心的做了小视频,帮助各位消化理解。大家感兴趣的可以关注我们的公众号进行观看。
综合应用场景:
接下来我们来看个有趣的案例吧。
#国家收入水平案例
#(1)一个白领,工资水平高于周围的人,但是小于国家统计行业工资平均水平,为什么?
#(2)x为收入,y为对应的人数
x=['1000','2000','3000','4000','5000','6000','7000','8000','9000','10000',
'20000','30000','40000','50000','1000000','2000000']
y=[1000,3000,7000,10000,14000,16000,14000,8000,1000,500,100,
100,100,100,50,50]
要求:计算数据众数、中位数与平均值,解释上述现象,并评价国家整体收入状况。
根据数据,我们画出图形,计算出指标,看看到底是怎么回事?
图形看着比较“凸”,右侧下降陡峭,平均值大于中位数和众数,存在右侧极大离群值。
结论一:我们看到的是众数,所以收入都比他们高,当将极大值进行平均时,拉高了整体的收入水平。
结论二:平均值大于中位数与众数,存在极大值,国家收入差距大;数据集中在众数与中位数周围,大多数人的收入在同一水平;整体收入水平较低,大多数人收入水平在平均值以下。
本期分享到这里,我们会在每周持续更新,咱们下期再见,期待您的光临。
大家好,本次我们提供了案例代码,请进入公众号领取。有什么建议,比如想了解的知识、内容中的问题、想要的资料、下次分享的内容、学习遇到的问题等,请在下方留言。
网友评论