美文网首页
深度学习调优

深度学习调优

作者: 陆号 | 来源:发表于2018-01-25 10:59 被阅读13次

1.神经网络数据预处理、正则化与损失函数

  • 回归问题中用到的L2范数损失,比分类问题中的Softmax分类器用到的损失函数,更难优化。直观想一想这个问题,一个神经网络最后输出离散的判定类别,比训练它去输出一个个和样本结果对应的连续值,要简单多了。
  • 我们前面的博文中提到过,其实Softmax这种分类器,对于输出的打分结果具体值是不怎么在乎的,它只在乎各个类别之间的打分幅度有没有差很多(比如二分类两个类别的得分是1和9,与0.1和0.9)。
  • 再一个,L2范数损失健壮性更差一些,异常点和噪声都可能改变损失函数的幅度,而带来大的梯度偏差。
  • 一般情况下,对于回归问题,我们都会首先考虑,这个问题能否转化成对应的分类问题,比如说我们把输出值划分成不同的区域(切成一些桶)。举个例子,如果我们要预测一部电影的豆瓣打分,我们可以考虑把得分结果分成1-5颗星,而转化成一个分类问题。
  • 如果你觉得问题确实没办法转化成分类问题,那要小心使用L2范数损失:举个例子,在神经网络中,在L2损失函数之前使用dropout是不合适的。

2.神经网络训练与注意点

Batch-Normalization.png

关于Batch Normalization:通常在全连接层后(此时输出值可能会很大),激励层前做
 激励层(实际经验)
1 不要用sigmoid!不要用sigmoid!不要用sigmoid!
2 首先试RELU,因为快,但要小心点
3 如果2失效,请用Leaky ReLU或者Maxout
4 某些情况下tanh倒是有不错的结果,但是很少
池化层 / Pooling layer
夹在连续的卷积层中间,压缩数据和参数的量,减小过拟合

卷积网络设计.png
canca.png
3.Neural Networks and Deep Learning中文翻译
优化.png

相关文章

网友评论

      本文标题:深度学习调优

      本文链接:https://www.haomeiwen.com/subject/dxgmaxtx.html