美文网首页
正态分布的应用——基于峰度系数解释离群效应

正态分布的应用——基于峰度系数解释离群效应

作者: 海数据实验室 | 来源:发表于2020-10-06 18:51 被阅读0次

内容导入

大家好这里是每天分析一点点。本期介绍的是数据分析基础系列,主要给大家介绍描述性统计分析原理,包括中位数、众数、平均数、方差、标准差、离散系数、峰度峰度、离群值等的原理、概念以及应用。再结合区域工资水平,探讨峰度在离群效应分析中的应用。文章内容适合数据分析小白,内容深入浅出,案例贴合实际。欢迎大家关注。

概念介绍:

峰度的概念:

峰度又称峰态系数。表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了峰部的尖度。样本的峰度是和正态分布相比较而言统计量,如果峰度大于0,峰的形状比较尖,比正态分布峰要陡峭。峰度高就意味着方差增大是由低频度的大于或小于平均值的极端差值引起的。

峰度一般可表现为三种形态:尖顶峰度、平顶峰度和标准峰度。当变量值的次数在众数周围分布比较集中,使次数分布曲线比正态分布曲线顶峰更为隆起尖峭,称为尖顶峰度;当变量值的次数在众数周围分布较为分散,使次数分布曲线较正态分布曲线更为平缓,称为平顶峰度。

峰度的计算公式:

峰度计算为四阶中心距除以四阶标准差,所谓中心距,就是距离数据中心的距离,数据中心一般是值数据的平均值,因此中心距就是每个数减去平均数的和,然后求平均,四阶就是在这个基础上求四次方。四阶标准差就是标准差的四次方。

峰度的相关原理: 

根据均值不等式,可以确定出峰度系数的取值范围:它的下限不会低于-2,上限不会高于数据的个数。有一些典型分布的峰度系数值得特别关注。例如,正态分布的峰度为常数0,均匀分布的峰度为常数-1.2。

峰度以K表示,以一般而言,正态分布为参照,峰度可以描述分布形态的陡缓程度,若K<0,则称分布具有不足的峰度,若K>0,则称分布具有过度的峰度。若知道分布有可能在峰度上偏离正态分布时,可用峰度来检验分布的正态性。

峰度的特点:     

峰度的特点:     

正态分布的峰度为0。     

以一般而言,正态分布为参照,峰度可以描述分布形态的陡缓程度;     

若k<0,则称分布具有不足的峰度;     

若k>0,则称分布具有过度的峰度。     

峰度的应用:

1.  K>0,数据尖峰,数据集中在一个区域内,两侧存在离群值     

2.  K<0,数据平峰,数据相对不集中,数据无离群值。     

大家好,理论看着枯燥,微信公众号里准备了一个峰度介绍的小视频,给大家解解乏,帮助大家进行理解,很有趣的哦。大家有兴趣的话就关注我们的公众号吧。

综合应用场景:

 接下来我们#数据峰度:

某地区随机50人的平均工资为来看个实际的案例吧。

2589,2163,2126,3500,2268,1871,2050,1856,2572,1000,3932,2105,1652,2559,2741,1766,2705,2067,3800,2749,2020,6918,1350,1168,1245,1966,1080,915,1563,2307,2861,600,711,696,2261,3260,2219,2415,2877,2143,2564172,951,1683,888,2880,4000,3500,1000,1250。请分析该地区的收入是否存在离群值。

 我们可以使用峰度来解释离群的效应,用python的计算过程如下。

#求平均数 income_mean=np.mean(income)

#求中心距 center_dis=income-income_mean

#求标准差 sigma=np.std(income)

#求平均4阶中心距 center_dis4=sum(np.power(center_dis,4))/len(income)

#求标准差的4次方 sigma4=np.power(sigma,4)

#求数据峰度 kurtosis=center_dis4/sigma4-3

print(kurtosis)#数据峰度为:4.408 大于0,数据为尖峰。

 根据峰度的原理,如果峰度大于0,峰的形状比较尖,比正态分布峰要陡峭。峰度高就意味着方差增大是由低频度的大于或小于平均值的极端差值引起的。因此,我们可以得出结论,该地区收入是存在离群值。但是,离群值是极大值还是极小值呢?我们有如何进行确定。这就要结合偏度系数进行判断。还记得吗?上期我们的偏度系数测量为1.424,右偏。因此,该收入数据存在离群值,并且是极大的离群值,会使平均数大于中位数大于众数。大部分人的收入在平均值以下,贫富差距巨大。

各位还没有看懂的朋友关注一下我们的微信公众号,那里的视频解释更加精彩。

 本期分享到这里,我们会在每周持续更新,咱们下期再见,期待您的光临。

 有什么建议,比如想了解的知识、内容中的问题、想要的资料、下次分享的内容、学习遇到的问题等,请在下方留言。如果喜欢请关注。

相关文章

网友评论

      本文标题:正态分布的应用——基于峰度系数解释离群效应

      本文链接:https://www.haomeiwen.com/subject/lhznuktx.html