美文网首页
2018-03-23滴滴面试总结

2018-03-23滴滴面试总结

作者: f8ad67cc84de | 来源:发表于2018-03-26 22:07 被阅读20次

    岗位:光学字符识别资深工程师

    【1】什么是激活函数?激活函数有哪几种?relu曲线左侧全都为0,会导致网络大部分参数为0,为什么还要用它来训练?

            https://blog.csdn.net/zchang81/article/details/70224688

    ReLU 的缺点:训练的时候很容易就”die”了。

    如果这个情况发生了,那么这个神经元的梯度就永远都会是0。实际操作中,如果你的learning rate 很大,那么很有可能你网络中的40%的神经元都”dead”了。 如果你设置了一个合适的较小的learning rate,这个问题发生的可能性也不大。

    使用 ReLU 得到的SGD的收敛速度会比 sigmoid/tanh 快很多(看右图)。相比于 sigmoid/tanh,ReLU 只需要一个阈值就可以得到激活值,而不用去算一大堆复杂的运算。

    【2】神经网络训练的过程中是否很容易陷入局部最优?为什么?

    梯度下降法的神经网络容易收敛到局部最优,为什么应用广泛? - 李振华的回答 - 知乎

    https://www.zhihu.com/question/68109802/answer/262143638

    【3】神经网络中Batch Normalization (BN)是什么?有什么作用?

            https://www.zhihu.com/question/38102762

    【4】Batch Normalization (BN)中的参数是否也需要训练?

    【5】在执行梯度下降的过程时,采用了一阶导数,但是如果才有二阶导数的话,下降速度会更快,为什么不用二阶导数?

    神经网络的训练可以采用二阶优化方法吗(如Newton, Quasi Newton)? - Martin Tan的回答 - 知乎

    https://www.zhihu.com/question/53218358/answer/148782568

    【6】数学题,x和y都是取值在0~1之间的均匀分布,求(x>y)的期望E(x>y)=?

    相关文章

      网友评论

          本文标题:2018-03-23滴滴面试总结

          本文链接:https://www.haomeiwen.com/subject/akkfcftx.html