深度学习知识点

作者: 闻榴莲的猫 | 来源:发表于2018-09-06 21:17 被阅读21次

    1. 写出常用的激活函数及其导数

    • sigmoid
      σ(x) = \frac{1}{1+e^{-x}}

    σ'(x) = σ(x)(1- σ(x))

    • tanh
      tanh(x) = 2σ(2x) - 1 = \frac{e^x - e^{-x}}{e^x + e^{-x}}

    tanh'(x) = 2tanh(x)(1 - tanh(x))

    • ReLU
      f(x) = max(0, x)

    f'(x) = \left\{\begin{matrix} 1, x > 0\\ 0, x <= 0\end{matrix}\right.

    • Leaky ReLU
      f(x) = \left\{\begin{matrix} x, x >= 0\\ a * x, x < 0\end{matrix}\right.

    f'(x) = \left\{\begin{matrix} 1, x >= 0\\ a, x < 0\end{matrix}\right.

    • Softplus
      f(x) = log(1 + e^{x})

    f'(x) = \frac{e^{x}}{1 + e^{x}} = \frac{1}{1 + e^{-x}} = σ(x)

    2. 神经网络训练时是否可以将参数全部初始化为0?

    不可以,如果将参数全初始化为0,那同一隐层每个节点的值都相同,反向传播权值更新也相同,这样每层隐层的神经元都相同,学习失败。

    3. 多层感知机表示异或逻辑时最少需要几个隐层?

    一层,详见西瓜书

    4. 为什么Sigmoid和Tanh激活函数会导致梯度消失的现象?

    因为权值是通过BP更新的,sigmoid的导数最大值是0.25,tanh的导数最大值是1,也就是说这两个函数的梯度都是<=1的,根据链式法则,梯度会衰减,以至梯度消失。

    5. 写出多层感知机的平方误差和交叉熵损失函数。

    6. 解释卷积操作中的稀疏交互和参数共享及其作用。

    7. ReLU系列的激活函数的优点是什么?他们有什么局限性以及如何改进?

    优点:

    1. 方便计算
    2. 收敛速度快
    3. 对于线性函数,表达能力更强
    4. 在非负区间的导数是1,不存在梯度消失

    8. 平方误差损失函数和交叉熵损失函数分别适合什么场景?

    9. 常用的池化操作有哪些?池化的作用是什么?

    1. 最大池化
    2. 平均池化
    3. 随机池化
      池化的作用:
      在保留更多细节特征的前提下减少冗余,也就是降维,可以减少计算量,防止过拟合,提高模型的泛化能力

    10. 卷积神经网络如何用于文本分类任务?

    11. 根据损失函数推导各层参数更新的梯度计算公式。

    相关文章

      网友评论

        本文标题:深度学习知识点

        本文链接:https://www.haomeiwen.com/subject/xwffgftx.html