In shallow network, each neuron only provides one linear piece.
piece-wide function 折线的上限是,其中n是relu的个数
deepDNN的前面的layer更重要
DNN的损失函数不是凸函数,局部最小值基本就是全局最小,梯度为0的点叫做critical point h是Hessian矩阵, g是梯度, Hessian矩阵用来帮助判断当前的critical point的性质 绿线是指包含g的曲线,红线是包含H的曲线 牛顿法通过H^-1一步可以直接计算到极致点 H能够告诉我们当前critical point的种类 正定矩阵 Hessian矩阵与极值点的关系 theta不管往哪个方向走,都是H特征向量的线性组合 Hessian例子 两个神经元连接的损失函数不是凸函数(一个神经元是凸函数,就是linear regression)只要所有的hidden layer的size大于输入输出的size,找到的局部最小值一定是全局最小值
参数越多,critical point是saddle point(鞍点)的概率越大
BN的作用 skip connection的作用sharpness
小batch训练的效果更好, 可能和sharpness有关
SELU, 输入输出的miu和方差趋近
best practice: standardscaler + selu + lecun_normal
SELU性能很好GAN
DCGAN的技巧:使用leaky relu, BN, Generator最后一层的激活函数使用
tanh
,优化器使用Adam
网友评论