岗位:光学字符识别资深工程师
【1】什么是激活函数?激活函数有哪几种?relu曲线左侧全都为0,会导致网络大部分参数为0,为什么还要用它来训练?
https://blog.csdn.net/zchang81/article/details/70224688
ReLU 的缺点:训练的时候很容易就”die”了。
如果这个情况发生了,那么这个神经元的梯度就永远都会是0。实际操作中,如果你的learning rate 很大,那么很有可能你网络中的40%的神经元都”dead”了。 如果你设置了一个合适的较小的learning rate,这个问题发生的可能性也不大。
使用 ReLU 得到的SGD的收敛速度会比 sigmoid/tanh 快很多(看右图)。相比于 sigmoid/tanh,ReLU 只需要一个阈值就可以得到激活值,而不用去算一大堆复杂的运算。
【2】神经网络训练的过程中是否很容易陷入局部最优?为什么?
梯度下降法的神经网络容易收敛到局部最优,为什么应用广泛? - 李振华的回答 - 知乎
https://www.zhihu.com/question/68109802/answer/262143638
【3】神经网络中Batch Normalization (BN)是什么?有什么作用?
https://www.zhihu.com/question/38102762
【4】Batch Normalization (BN)中的参数是否也需要训练?
【5】在执行梯度下降的过程时,采用了一阶导数,但是如果才有二阶导数的话,下降速度会更快,为什么不用二阶导数?
神经网络的训练可以采用二阶优化方法吗(如Newton, Quasi Newton)? - Martin Tan的回答 - 知乎
https://www.zhihu.com/question/53218358/answer/148782568
【6】数学题,x和y都是取值在0~1之间的均匀分布,求(x>y)的期望E(x>y)=?
网友评论