美文网首页
DeepLearning

DeepLearning

作者: MWhite | 来源:发表于2018-08-25 16:49 被阅读0次
    • 梯度检验 爆炸-》裁剪

    • 权重初始化

    • 指数加权平均(对于时间序列数据)减少噪音


    • 偏差修正(避免前期数值太小)


    • momentum
      对dW,db进行指数加权平均(也可以加上偏差修正,但一般不用)防止dW大幅度浮动
      β一般取值>0.9(可以视为对1/(1-β)个数据进行加权平均)

    • RMSprop


      对dW,db进行缩放
    • Adam
      综合momentum与RMSprop



    • 学习速率递减
      多种多样的方法,一般以一个epoch为单位进行递减

    • 高维度 几乎不可能被困在局部最优,但平稳点是一个问题

    • 超参数选取

      • random values,不要用grid间隔选取
      • 粗糙到细致


      • 指数级上取值
      • babysitting 与 多模型平行运行
    • batch归一化
      对前一层经过激活前的数据进行归一normalize,不需要再设置参数b
      改变分布,减少covariate shift
      添加噪音,轻微正则化
      预测时,对样本进行缩放采用训练时的缩放参数(指数加权平均活动缩放参数)

    • softmax层


      loss function

    机器学习工程

    • 调整模型时 确保正交化,不会牵一发动全身
    • 确定评价指标
    • train dev test (dev test 独立同分布)
    • 部署后效果不好,改变评价指标/改变dev test
    • 贝叶斯误差
    • 根据可避免误差,确定是改善方差还是偏差
      方差训练集与测试集,偏差训练集与贝叶斯误差


    • 误差分析


    • 为了确定验证集与训练集的误差差如何改善,设置training-dev set与train set同分布但不训练
      从而确定是方差问题、偏差问题、还是数据不匹配问题



    • 数据不匹配 对训练集进行处理(图像、声音)人工合成数据,使其尽量与应用场景相接近
    • 迁移学习
    • 多任务学习(视觉下,各个任务数据互助,比单个任务效果更好)
    • 端到端

    CV

    • LeNet-5 AlexNet VGG-16

    • 残差网络 ResNet


    • 1x1 卷积

    • inception


    • 计算成本 用1x1卷积作为瓶颈层,可大大减少计算量

    • 迁移学习

    • 数据增强

    • 物体检测

    1. 特定 x,y,w,d
    2. 滑动窗口



      第一个全连接
      第二种方法卷积
      本质一样 5x5x16x400
      但第二种方法可以应用于不同大小的图。
      计算一个方框内是某物体的可能性时,第二种方法计算量增加很少(但边框不精确)


    3. YOLO
      改变标签,图像分割成多个小格子(推荐19x19),标签数据也随时改变。



      (个人设想延伸,一个大样本分割成19x19个小样本,训练小样本。预测时也把图片分割成小样本,依次预测 效果可能不如直接YOLO好)

    • IoU交并比 >0.5
    • non-max suppression 对于不同的识别类别,独立进行非最大抑制


    • archor box 根据IoU确定在哪个anchor box中


    • 整合之前的内容


    • RPN
    • 人脸识别
      siamese network



      triplet 损失——训练siamese网络的方法一




      有点对抗网络的思想

    二分类——训练siamese网络的方法二


    • 神经风格迁移




      选择已经训练好的模型
      内容代价函数:参考两个图跑模型时其中间第l层(不要太浅也不要太深)的激活值,L2



      风格损失函数:计算同层不同channel的相关度,比较两个图相关度的差值。有权累加不同层的值。

    根据损失函数+BP 修改G图,不修改模型

    • 3D 1D卷积

    RNN



    • GRU



    • LSTM


    • BRNN


    • DEEP RNN


    词语表示

    • 词嵌入 word embedding
      embedding matrix




      距离用余弦

    生成embedding matrix

    • 根据周围多个,预测中间一个


    • skip-gram模型 选择nearby的一个,预测周围范围内某个词出现的概率


    • word2vec算法


    • 负采样



    • GloVe词向量


    • 词向量应用



    • 偏见消除


    • 定向搜索

    • bleu得分



    • 注意力模型



    • 语音识别



    相关文章

      网友评论

          本文标题:DeepLearning

          本文链接:https://www.haomeiwen.com/subject/nslkbftx.html