一些符号:
m:训练集数量
x:输入 y:输出
(x,y):一个样本
第i个输入
第i个输出
模型参数
假设函数
学习率
![](https://img.haomeiwen.com/i10427717/a694797d576bf2e9.png)
代价函数:
(此处为:平方误差代价函数)
至于为什么乘以1/2,是为了在求偏导时约去2,也有人说是为了降低极端值的影响
梯度下降:
始于某一点,then
repeat until 收敛{
(j=0或j=1)
}
![](https://img.haomeiwen.com/i10427717/8d2d6454e6a0a78c.png)
如图,在向最小值下降的过程中,斜率越来越接近于0,变化的速度越来越慢。故一般不需要改变的值
过小会导致收敛速度很慢,过大会导致无法收敛或发散:
![](https://img.haomeiwen.com/i10427717/ed836352d3bf50b5.png)
<注意>同步更新:
错误:
第二行要影响第三行
网友评论