- 梯度下降中学习率为负数,因为如果是负梯度(下降)则横坐标需右移,正梯度(上升)横坐标需左移.
-
正则化将特征前加入一个很大的参数从而使对应特征所占权重变小, 同时又能保留所有特征, 使得特征的变化过大时对输出预测影响减小, 从而得到更平滑的预测曲线, 平滑的曲线对噪声不敏感.
有时需要减小代价函数中(例子中是线性回归的代价函数)所有的参数值,因为我们并不知道是哪一个或哪几个要去缩小。
顺便说一下,按照惯例,我们没有去惩罚 θ0,因此 θ0 的值是大的。这就是一个约定从 1 到 n 的求和,而不是从 0 到 n 的求和。
- 下面的这项就是一个正则化项
并且 λ 在这里我们称做正则化参数。
λ 要做的就是控制在两个不同的目标中的平衡关系。
-
第一个目标就是我们想要训练,使假设更好地拟合训练数据。我们希望假设能够很好的适应训练集。
-
而第二个目标是我们想要保持参数值较小。(通过正则化项)
不加b是因为不考虑bias, bias对曲线平滑程度无影响.
-
当λ过大时, 会更多地考虑w本来的值, 而减少考虑error, 从而error越大. 当λ极大时, 相当于只考虑θ0, θ1-θn都是极小值, 则预测曲线成为水平直线.
-
w和b要有不同的学习率, 否则无法收敛到最优解.
网友评论