美文网首页
李宏毅2018笔记(未完)

李宏毅2018笔记(未完)

作者: 音符纸飞机 | 来源:发表于2019-05-03 18:12 被阅读0次
    relu理论上可以拟合任何复杂的函数,piece-wide function shallow vs. deep: Deep needs fewer neurons

    In shallow network, each neuron only provides one linear piece.

    piece-wide function 折线的上限是2^n,其中n是relu的个数

    deep

    DNN的前面的layer更重要

    DNN的损失函数不是凸函数,局部最小值基本就是全局最小,梯度为0的点叫做critical point h是Hessian矩阵, g是梯度, Hessian矩阵用来帮助判断当前的critical point的性质 绿线是指包含g的曲线,红线是包含H的曲线 牛顿法通过H^-1一步可以直接计算到极致点 H能够告诉我们当前critical point的种类 正定矩阵 Hessian矩阵与极值点的关系 theta不管往哪个方向走,都是H特征向量的线性组合 Hessian例子 两个神经元连接的损失函数不是凸函数(一个神经元是凸函数,就是linear regression)

    只要所有的hidden layer的size大于输入输出的size,找到的局部最小值一定是全局最小值

    参数越多,critical point是saddle point(鞍点)的概率越大

    BN的作用 skip connection的作用

    sharpness

    小batch训练的效果更好, 可能和sharpness有关


    SELU, 输入输出的miu和方差趋近

    best practice: standardscaler + selu + lecun_normal

    SELU性能很好

    GAN

    DCGAN的技巧:使用leaky relu, BN, Generator最后一层的激活函数使用tanh,优化器使用Adam

    相关文章

      网友评论

          本文标题:李宏毅2018笔记(未完)

          本文链接:https://www.haomeiwen.com/subject/upwgvqtx.html