1.为什么要做数据标准化
以逻辑回归为例,假设数据都分布在较大的位置,那么通过映射之后的,梯度就很小,进行梯度下降调节的时候收敛速度很慢甚至难以收敛。
LR相当于一个最简单的神经网络,参照神经网络中的BN层,所以LR的标准化应该进行在使用sigmoid函数做非线性映射之前。

再以SVM为例,假设我们的训练数据和测试数据分布不同

那么模型的泛化能力很差,所以BN也是解决过拟合的方法之一。
2.归一化的方法
最简单最常用的方法就是先计算每个维度均值,再计算方差
,最后每个标准化的数据应该为
之所以这么做是因为我们假定待解决问题的样本都服从正态分布。
网友评论