7、梯度下降
来吧.PNG损失函数图形.PNG
我们这里要找到使损失函数最小的预测因变量。
最简单的方法就是试不同的参数的值,知道某个参数的值使得损失函数最小。比如说每个参数都试1000个值,从0到10,以0.01为步长,
高维诅咒.PNG
例子1.PNG
效率低下.PNG
如果运用上述算法,世界上最快的计算机也要计算很多年。
实际运用中更为复杂.PNG
实际中的参数更为复杂,所以如果运用穷举法去优化损失函数是不可能的。
简单朴素方法,kit out。
梯度下降.PNG
直觉1.PNG
直觉2.PNG
直觉3.PNG
直觉4.PNG
梯度下降就是当预测值在某一个点的时候,我们求这个点的导数,让它顺着导数的反向向下划,经过多次滑动就会到达最低点。
对于一维是求导,对于多维是求偏导。
我们可以认为是在参数原有的值上,我们在关于它的导数的方向上增大或者减小,如果它和损失函数负相关,就让它增大,如果它和损失函数正相关,就让它减小。
学习速率.PNG
实际的训练过程中有一个学习速率的参数用来控制每次调整参数后,损失函数下降的范围。
二维情况.PNG
二维情况加.PNG
二维中也是一样的,我们通过调整两个参数的数值,使损失函数朝着沟渠中走去。
网友评论