美文网首页
在机器学习中高斯分布的意义

在机器学习中高斯分布的意义

作者: DeepMine | 来源:发表于2019-06-26 11:52 被阅读0次

1、在自然界数据的分布通常是正态分布(如年龄、身高、体重等),所以当我们对数据潜在分布模式不清楚时,这是最好的近似。

2、在ML/AI中,目标通常是使得数据线性可分,甚至意味着将数据投影到更高维空间,找到一个可拟合的超平面(如SVM核,神经网络层,softmax等)。原因是“线性分界通常有助于减少方差variance而且是最简单,自然和可理解的”,同时减少数学/计算的复杂性。同时,当我们聚焦线性可分时,通常可以很好减少异常点、影响点和杠杆点的作用。为啥?因为超平面是对影响点和杠点(异常点)非常敏感。举个例子,在二维空间中,我们有一个预测器predictor(X),和目标值(y),假设X和y是很好的正相关。在这个情形下,假设X是正态分布,y也是正态分布,那么你可以拟合到一条很直的线,相比边界点(异常点,杠杆点),很多点都集中在线的中间,所以这个预测回归线在预测未知数据时,降低方差variance的影响。

用上面例子,理解在n维空间,拟合一个超平面,让数据线性可分,就理解正态分布可以降低方差variance的影响

相关文章

网友评论

      本文标题:在机器学习中高斯分布的意义

      本文链接:https://www.haomeiwen.com/subject/wxoqcctx.html