深度学习知识点

作者: 闻榴莲的猫 | 来源:发表于2018-09-06 21:17 被阅读21次

1. 写出常用的激活函数及其导数

sigmoid
$σ(x) = \frac{1}{1+e^{-x}}$

$σ'(x) = σ(x)(1- σ(x))$

tanh
$tanh(x) = 2σ(2x) - 1 = \frac{e^x - e^{-x}}{e^x + e^{-x}}$

$tanh'(x) = 2tanh(x)(1 - tanh(x))$

ReLU
$f(x) = max(0, x)$

$f'(x) = \left\{\begin{matrix} 1, x > 0\\ 0, x <= 0\end{matrix}\right.$

Leaky ReLU
$f(x) = \left\{\begin{matrix} x, x >= 0\\ a * x, x < 0\end{matrix}\right.$

$f'(x) = \left\{\begin{matrix} 1, x >= 0\\ a, x < 0\end{matrix}\right.$

Softplus
$f(x) = log(1 + e^{x})$

$f'(x) = \frac{e^{x}}{1 + e^{x}} = \frac{1}{1 + e^{-x}} = σ(x)$

2. 神经网络训练时是否可以将参数全部初始化为0?

不可以,如果将参数全初始化为0,那同一隐层每个节点的值都相同,反向传播权值更新也相同,这样每层隐层的神经元都相同,学习失败。

3. 多层感知机表示异或逻辑时最少需要几个隐层?

一层,详见西瓜书

4. 为什么Sigmoid和Tanh激活函数会导致梯度消失的现象?

因为权值是通过BP更新的,sigmoid的导数最大值是0.25,tanh的导数最大值是1,也就是说这两个函数的梯度都是<=1的,根据链式法则,梯度会衰减,以至梯度消失。

5. 写出多层感知机的平方误差和交叉熵损失函数。

6. 解释卷积操作中的稀疏交互和参数共享及其作用。

7. ReLU系列的激活函数的优点是什么？他们有什么局限性以及如何改进？

优点：

方便计算
收敛速度快
对于线性函数,表达能力更强
在非负区间的导数是1,不存在梯度消失

8. 平方误差损失函数和交叉熵损失函数分别适合什么场景？

9. 常用的池化操作有哪些？池化的作用是什么？

最大池化
平均池化
随机池化
池化的作用:
在保留更多细节特征的前提下减少冗余,也就是降维,可以减少计算量,防止过拟合,提高模型的泛化能力

10. 卷积神经网络如何用于文本分类任务？

11. 根据损失函数推导各层参数更新的梯度计算公式。

网友评论

python机器学习爬虫

本文标题：深度学习知识点

本文链接：https://www.haomeiwen.com/subject/xwffgftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！