美文网首页
为什么要假设变量为正态分布?

为什么要假设变量为正态分布?

作者: enhengz | 来源:发表于2017-12-07 22:45 被阅读1703次

正态分布概念:

参见上篇简文中心极限定理与正态分布


好,进入本文重点,为什么很多模型都假设变量服从正态分布呢,尤其是回归模型

1.正态分布的奇妙之处就在于它是自然分布,任何看似没有规律可寻的随机事件其实是服从一个表达式就能表达的正态分布,不受人为影响。

eg:打靶,你每次射中点离中心的距离就是误差+方差,如果你每次射中点离中心点都离好远,那你就得提高自身的水平,即距离中心点的宽度(也就是方差),但你就算对自己的水平无限提高,你还是不能每次都射中中心点,这就是所谓的误差,所以如果你想射中点偏离中心点较小,就只能提高方差,也就是改变正态分布的方差,但是误差是呈现正态分

2.正态分布的信息熵最大,是最没有规则的分布,所以大自然嗜好这种分布。

为什么熵大好,这个要说很多分类模型中的特征选择标准了,想了解的童鞋请参见上篇简文信息增益与信息增益比

3.在线性回归中,使用最小二乘法估计是最小方差的无偏估计,所以要求误差项必须满足正态分布,那么在设定x值固定的情况下,y也满足正态分布,所以要求噪声u服从正态分布,即因变量服从正态分布

4.以数学理解为中心极限定理,即所有的随机事件取样本均值足够多的情况下都服从正态分布,所以就产生了对变量正态分布的假设(这个理解主要来自于中心极限定理概念里面提出的当随机变量受综合因素影响,且每一个因素影响较小时,该变量都服从正态分布的定理)而且虽然中心极限定理的前提条件是变量独立且同分布,但这也不是必要条件,粗略的就可以理解为如果一些变量服从相似的分布且相关性较弱,那么他们的平均值就接近正态分布

最后,怎么使自己的数据转换成正态分布,这个一般使用box-cox转换

相关文章

  • 为什么要假设变量为正态分布?

    正态分布概念: 参见上篇简文中心极限定理与正态分布 好,进入本文重点,为什么很多模型都假设变量服从正态分布呢,尤其...

  • 相关性检验方法

    Pearson 假设 所有变量数据正态分布。 变量线性相关。 数据同方差性(homoscedasticity) P...

  • 从正态分布到假设检验

    正态分布 一维正态分布的概率密度函数为:即随机变量X服从均值为,方差为的正态分布,记作。特别的,当,时成为标准正态...

  • 2019-01-23 高斯分布

    高斯分布也称为正态分布。 假设x是一个实数随机变量,如果x的概率分布服从高斯分布,其中均值为μ,方差为,那么将它记...

  • 广义线性模型 (Generalized Linear Model

    广义线性模型(glm)意为利用连接函数将各种分布(正态分布,二项分布,泊松分布)假设下的因变量与自变量想联系...

  • 实习小结PKU3(统计学)

    一、卡方检验 1、统计量为什么要这样构造 2、要求变量服从正态分布吗? 为什么不要求?( 二项分布的中心极限定理+...

  • Python中的正态分布统计

    正态分布:若随机变量x服从有个数学期望为μ,方差为σ2 的正态分布,记为N(μ,σ)其中期望值决定密度函数的位置,...

  • 思维模型之正态分布

    正态分布:即高斯分布,在数学中,若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,记为N(μ,σ^2)。其...

  • 检验正态分布shapiro.test

    此时只需要p值大于0.05即为符合正态分布 假设: 一定样本量n的研究对象总是符合正态分布。 将样本量为n的样本按...

  • 运算符

    以下假设变量a为10,变量b为21:| + | 加 - 两个对象相加 | a + b 输出结果 31 || - |...

网友评论

      本文标题:为什么要假设变量为正态分布?

      本文链接:https://www.haomeiwen.com/subject/yzcsixtx.html