美文网首页
Deep Learning

Deep Learning

作者: 雨宝_f737 | 来源:发表于2019-01-25 12:58 被阅读0次

1.影响网络的结果因素:权重初始化(会使线性加权后的结果过大或者过小,放进激活函数中的话可能会产生0值,当x的值大于28的时候输入sigmoid函数会输出0);激活函数(求导很多地方为0如sigmoid);学习率;迭代次数;数据预处理

2.过拟合的问题:首先是选择合适的学习率最小化cost,在此基础上出现过拟合(训练误差比测试误差小很多),则进一步采取措施。

3.神经网络为什么会产生梯度消失现象?

在DNN中反向传播的过程中是激活函数的梯度与权重相乘的结果,若是sigmoid函数,导数最大为1/4,权重初始化为均值为0方差为1的值时,很多项相乘,越乘越小,梯度消失问题便出现了。

4.为什么会出现梯度爆炸现象?

如果权重很大,每次相乘后的结果都是大于1的,越乘越大,爆炸出现。

5.常见的激活函数有哪些?都有什么特点?

sigmoid/tanh/ReLU/LReLU/PReLU

sigmoid

优点:可以表示概率

缺点:梯度消失/输出不以0为中心/计算成本高需要计算exp

tanh

优点:输出以0为中心

缺点:梯度消失

ReLU

优点:收敛快;在x大于0的情况不会饱和

缺点:在x小于0的情况下梯度为0/输出不易0为中心

Leakly ReLU:

缺点:函数不连续

Parametric ReLU:

alpha可以被学习

通常来说,很少会把各种激活函数串起来在一个网络中使用的。

如果使用 ReLU,那么一定要小心设置 learning rate,而且要注意不要让你的网络出现很多 “dead” 神经元,如果这个问题不好解决,那么可以试试 Leaky ReLU、PReLU 或者 Maxout.最好不要用 sigmoid,可以试试 tanh,不过可以预期它的效果会比不上 ReLU 和 Maxout.

6.超参数:

学习率/正则化系数/批尺寸/最大迭代次数/隐层结点个数/隐层个数

权重矩阵初始化(全都初始化为0,学到的内容是一样的;随机初始化,容易权重过大,饱和;使用he初始化)/激活函数的选择

7.优化方法

8.AUC与log损失函数差别:

AUC是衡量的正样本排在负样本前面的概率,但是Log损失函数衡量的是模型预测的是否准确;

AUC作为目标函数更接近的是pair损失函数,正样本比负样本的得分高。

9.平方L2范数在数学和计算上都比L2范数本身更方便。例如,平方fL2范数对α 中每个元素的导数值取决于对应的元素,而f 范数对每个无素的导数

和整个向量有关。

相关文章

网友评论

      本文标题:Deep Learning

      本文链接:https://www.haomeiwen.com/subject/fkumjqtx.html