分析:
lr=0.001 时,步长太大,来回振动,这不是好的loss函数曲线。
lr=0.0001时,步长依然大,只是说波动的规模相对缩小了。依然波动剧烈。
lr=0.00001时,是理想的曲线,但是考虑到轮次太少,可以认为波动依然被缩小了而已。
lr=0.000001时,是理想的曲线。步长又降低一个数量级,轮次增加一个数量级。曲线是比较好的曲线。
总结:
(1)当然可以继续缩小步长、增加轮次,提升精确度,但是轮次再提升已经过多,得不偿失了。
(2)还有个致命的问题就是:步长小基本就等于局部最优。上图中之所以可以不断减小是因为问题简单,只有一个变量。
(3)还有一个更好的方法是自动修改步长,这种方法以后再讨论。
(4)通过本文的对比能对深度学习的步长有一个更深的理解。
网友评论