美文网首页
深度学习调优

深度学习调优

作者: 陆号 | 来源:发表于2018-01-25 10:59 被阅读13次

    1.神经网络数据预处理、正则化与损失函数

    • 回归问题中用到的L2范数损失,比分类问题中的Softmax分类器用到的损失函数,更难优化。直观想一想这个问题,一个神经网络最后输出离散的判定类别,比训练它去输出一个个和样本结果对应的连续值,要简单多了。
    • 我们前面的博文中提到过,其实Softmax这种分类器,对于输出的打分结果具体值是不怎么在乎的,它只在乎各个类别之间的打分幅度有没有差很多(比如二分类两个类别的得分是1和9,与0.1和0.9)。
    • 再一个,L2范数损失健壮性更差一些,异常点和噪声都可能改变损失函数的幅度,而带来大的梯度偏差。
    • 一般情况下,对于回归问题,我们都会首先考虑,这个问题能否转化成对应的分类问题,比如说我们把输出值划分成不同的区域(切成一些桶)。举个例子,如果我们要预测一部电影的豆瓣打分,我们可以考虑把得分结果分成1-5颗星,而转化成一个分类问题。
    • 如果你觉得问题确实没办法转化成分类问题,那要小心使用L2范数损失:举个例子,在神经网络中,在L2损失函数之前使用dropout是不合适的。

    2.神经网络训练与注意点

    Batch-Normalization.png

    关于Batch Normalization:通常在全连接层后(此时输出值可能会很大),激励层前做
     激励层(实际经验)
    1 不要用sigmoid!不要用sigmoid!不要用sigmoid!
    2 首先试RELU,因为快,但要小心点
    3 如果2失效,请用Leaky ReLU或者Maxout
    4 某些情况下tanh倒是有不错的结果,但是很少
    池化层 / Pooling layer
    夹在连续的卷积层中间,压缩数据和参数的量,减小过拟合

    卷积网络设计.png
    canca.png
    3.Neural Networks and Deep Learning中文翻译
    优化.png

    相关文章

      网友评论

          本文标题:深度学习调优

          本文链接:https://www.haomeiwen.com/subject/dxgmaxtx.html