首先我们需要确认,是在training data上的performance差还是在testing data上的 performance 差,从而选择合适的方法。
image.png在training data上的performance差怎么办?
New activation function
我们发现,在同一时刻,越靠后的网络层的学习速率越快,而越靠前的网络层的学习速率反而越慢!我们可以有一个直观的印象,error项在向后传播的过程中,逐渐变小,使得越靠前的网络层的学习速率越来越低,这种现象被称为vanishing gradient problem。
image.png解决这个问题,我们可以改变activation function
ReLU
image.pngMaxout
image.pngAdaptive Learning Rate
两种方法
RMSProp
image.pngMomentum
image.png在testing data上的performance差怎么办?
Early Stopping
image.png我们想要的是 在testing data上的效果最好,也就是loss最小。如果在Validation set你的loss已经不再下降,你就应该停下来。
Regularization
image.png我们修改了loss function,希望我们的参数越小越好。
Dropout
image.png- testing的时候是不dropout的
- If the dropout rate at training is p%,all the weights times 1-p%
- Assume that the dropout rate is 50%.If a weight w = 1 by training, set 𝑤 = 0.5 for testing.
网友评论