Deep Learning

作者: 雨宝_f737 | 来源:发表于2019-01-25 12:58 被阅读0次

Deep Learning from the perspecti
AI学习笔记
2020台大李宏毅机器学习 DL预备——深度学习简介
深度学习学习资料
[转]深度学习论文阅读路线图
目录
Deep Learning
Thanksgiving for deep learning
Deep Learning - Introduction
Deep Learning 深度学习 (一)

1.影响网络的结果因素：权重初始化（会使线性加权后的结果过大或者过小，放进激活函数中的话可能会产生0值，当x的值大于28的时候输入sigmoid函数会输出0）；激活函数（求导很多地方为0如sigmoid）；学习率；迭代次数；数据预处理

2.过拟合的问题：首先是选择合适的学习率最小化cost，在此基础上出现过拟合（训练误差比测试误差小很多），则进一步采取措施。

3.神经网络为什么会产生梯度消失现象？

在DNN中反向传播的过程中是激活函数的梯度与权重相乘的结果，若是sigmoid函数，导数最大为1/4，权重初始化为均值为0方差为1的值时，很多项相乘，越乘越小，梯度消失问题便出现了。

4.为什么会出现梯度爆炸现象？

如果权重很大，每次相乘后的结果都是大于1的，越乘越大，爆炸出现。

5.常见的激活函数有哪些？都有什么特点？

sigmoid/tanh/ReLU/LReLU/PReLU

sigmoid

优点：可以表示概率

缺点：梯度消失/输出不以0为中心/计算成本高需要计算exp

tanh

优点：输出以0为中心

缺点：梯度消失

ReLU

优点：收敛快；在x大于0的情况不会饱和

缺点：在x小于0的情况下梯度为0/输出不易0为中心

Leakly ReLU:

缺点：函数不连续

Parametric ReLU:

alpha可以被学习

通常来说，很少会把各种激活函数串起来在一个网络中使用的。

如果使用 ReLU，那么一定要小心设置 learning rate，而且要注意不要让你的网络出现很多 “dead” 神经元，如果这个问题不好解决，那么可以试试 Leaky ReLU、PReLU 或者 Maxout.最好不要用 sigmoid，可以试试 tanh，不过可以预期它的效果会比不上 ReLU 和 Maxout.

6.超参数：

学习率/正则化系数/批尺寸/最大迭代次数/隐层结点个数/隐层个数

权重矩阵初始化（全都初始化为0，学到的内容是一样的；随机初始化，容易权重过大，饱和；使用he初始化）/激活函数的选择

7.优化方法