正态分布的应用——基于描述性统计与分布的推论

作者: 海数据实验室 | 来源:发表于2020-10-07 20:09 被阅读0次

正态分布的应用——基于描述性统计与分布的推论
10种正态分布的验证方法
R与统计
ggsignif箱线图添加显著性差异标识
python:5种正态性检验方法
正态分布
正态分布的应用——基于正态分布检验产品合格性（理论）
正态分布采样与参数估计可视化
【数据分析师必备】九大常用数据分析方法汇总（上）
正态分布的应用

内容导入：

大家好，这里是每天分析一点点。本期介绍描述性统计指标与分布的基本关系，包括分布的基本类型，集中趋势与分布的关系，离散趋势与分布的关系，再结合国民收入案例探讨分布与描述性统计分析在实际生活的应用。文章内容适合数据分析小白，内容深入浅出，案例贴合实际。下期给大家介绍偏度系数，欢迎大家关注。

概念介绍：

分布的类型：

上期主要给大家介绍了正态分布，其实除了正态分布，还有很多的分布类型，今天就给大家科普一下。标准的二分布、均匀分布这样的古典概型产生的分布，在这里就不一一给大家介绍了。本次介绍的分布，也是统计中较为常用的类型。

第一、T分布。

如果已知等待分析的总体服从正态分布，从总体中抽取容量为n的所有可能样本，对每个样本都计算出它们相应的T统计量，则所有T统计量的值将组成一个连续型概率分布，这个分布就是T分布，T分布的概率密度函数为：

t代表T统计量的值；v表示自由度，等于样本容量n减去1； c为常数，使T分布函数曲线下的面积等于1。

T分布有什么功能呢？大家是否听说过系数T检验，样本T检验。T分布可以用来判断两个连续变量的显著性，经常用于判断线性回归中的系数是否显著，如果不显著，需要剔除该变量重新拟合。一般情况是T检验的双侧P值小于5%，视为显著，大于5%视为不显著。比如身高与年龄是否有显著性关系，GDP与投资是否有显著性关系。

第二、卡方（χ2 ）分布。

若n个相互独立的随机变量ξ₁，ξ₂，...,ξn ，均服从标准正态分布，则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量，其分布规律称为卡方分布。概率密度函数：

X2代表卡方统计量；e是自然底数，等于2.72； v代表自由度，等于样本容量n-1； c代表调节常数，使得卡方分布曲线下方的总面积等于1。

卡方分布，是用来检测方差的，通常检验一个变量两个类型的方差是否显著，通常用于逻辑回归中。举个例子，一个班共60个人，男的35人，女的25人，分析男女身高水平是否有显著差异，将60个身高数据用男女分开，然后应用卡方分布进行检验。一般情况是卡方检验的双侧P值小于5%，视为显著，大于5%视为不显著。二分类逻辑回归的显著性检验，应用的就是卡方检验。

第二、F分布。

两个正态分布总体之间的方差关系。

F统计量其实可以被认为是由两个卡方（χ2）统计量相除得到的，一般情况是默认将卡方值较大的总体作为分母，卡方值较小的总体作为分子。概率密度函数为：

v1表示F统计量分子的自由度； v2表示F统计量分母的自由度；c代表修正常数，它使得F分布曲线下方的总面积等于1。

F分布又是用来干什么的呢?做数据分析的你一定用过，但是你未必知道，F检验可以用来检验方差和函数，是的，检验函数，线性回归与逻辑回归的模型显著性，就可以用F分布进行检验。一般情况是F检验的双侧P值小于5%，视为显著，大于5%视为不显著。

分布与描述性统计分析的关系：

上期问了大家几个问题，如何描述频度分布图的特点呢？

1、左边数据多还是右边数据多？

2、左边陡峭还是右边陡峭？

3、是否存在极大极小的离群值？

4、是‘凸’的还是‘凹’的？

5、总体的形状像什么？

分布的数据特点已经相关的作用刚才已经给大家介绍了。分布的形状、陡峭程度、离群值特点与描述性通过相关指标有关。接下来，我们来进行具体的了解。

集中趋势与分布的关系：

经过前几期的了解，我们知道平均值、中位数、众数是集中趋势的指标。但是，并不是所有数据中，平均值与中位数都代表这数据的集中趋势。例如，想正态分布这样的倒U型分布数据，平均值、中位数、众数就可以代表数据的集中趋势。形如U型的数据分布，只有众数代表集中趋势，比如49个1，49个99，1个50这样的数据，平均值中位数是50，众数是1和99，这个时候只有众数代表数据集中趋势。

另外，平均值、中位数、众数的位置，与分布图形的左右形状有关，当均值小于中位数小于众数时，分布形状是右边隆起，左边有长长的尾巴；当均值大于中位数大于众数时，分布形状是左边隆起，右边有长长的尾巴。