美文网首页
2019-01-12-DL500问第三章

2019-01-12-DL500问第三章

作者: Ether_Pi | 来源:发表于2019-01-19 13:50 被阅读0次

    梯度消失?

    梯度爆炸

    权重矩阵的退化?

    前向传播

    反向传播

    超参数

    常见设 置超参数的做法有:

    1. 猜测和检查:根据经验或直觉,选择参数,一直迭代。
    2. 网格搜索:让计算机尝试在一定范围内均匀分布的一组值。
    3. 随机搜索:让计算机随机挑选一组值。
    4. 贝叶斯优化:使用贝叶斯优化超参数,会遇到贝叶斯优化算法本身就需要很多的参数的困难。
    5. 在良好初始猜测的前提下进行局部优化:这就是 MITIE 的方法,它使用 BOBYQA 算法,并有一个精心选择的起始点。由于 BOBYQA 只寻找最近的局部最优解,所以这个方法是 否成功很大程度上取决于是否有一个好的起点。在 MITIE 的情况下,我们知道一个好的起点,但这不是一个普遍的解决方案,因为通常你不会知道好的起点在哪里。从好的方面来说,这种 方法非常适合寻找局部最优解。稍后我会再讨论这一点。
    6. 最新提出的 LIPO 的全局优化方法。这个方法没有参数,而且经验证比随机搜索方法好

    激活函数

    如何选择激活函数?

    1. 如果输出是 0、1 值(二分类问题),则输出层选择 sigmoid 函数,然后其它的所有单 元都选择 Relu 函数。
    2. 如果在隐藏层上不确定使用哪个激活函数,那么通常会使用 Relu 激活函数。有时,也 会使用 tanh 激活函数,但 Relu 的一个优点是:当是负值的时候,导数等于 0。
    3. sigmoid 激活函数:除了输出层是一个二分类问题基本不会用它。
    4. tanh 激活函数:tanh 是非常优秀的,几乎适合所有场合。
    5. ReLu 激活函数:最常用的默认函数,如果不确定用哪个激活函数,就使用 ReLu 或者Leaky ReLu,再去尝试其他的激活函数。 6、如果遇到了一些死的神经元,我们可以使用 Leaky ReLU 函数。

    Batch_Size

    归一化

    1. 线性归一化
      适用范围:比较适用在数值比较集中的情况
      缺点:如果 max 和 min 不稳定,很容易使得归一化结果不稳定,使得后续使用效果也不 稳定。
    2. 标准差归一化
    3. 非线性归一化
    4. 局部响应归一化(公式)
    5. 批归一化(注释:在神经网络中间层也进行归一化处理,使训练效果更好的方法)

    相关文章

      网友评论

          本文标题:2019-01-12-DL500问第三章

          本文链接:https://www.haomeiwen.com/subject/xmuqdqtx.html