主要提问点
- 写出softmax损失函数代码(python),以及交叉熵损失函数
- 判断和消除过拟合的方法
dropout,正则项,还有其他的方法? - 正则化的方法与原理
L0,L1,正则化 - batchnorm的原理,要看论文
- 手推正向传播反向传播的向量表达式
梯度消失的原因,除了梯度爆炸/消失以外还应该考虑权值的影响(推完公式里面就能看出来,因为他是链式求导,偏导数相乘)。 - 动量更新
区别于sgd的原因 - 写出几种常见的神经网络
VGGNet、ResNet - Relu激活函数也不能解决梯度消失问题。
会使得神经元失活 - 基本超参数的调整方式(调参)
- 何凯明,提出resnet之前的论文有无了解
网友评论