美文网首页我爱编程
笔记 | 一天搞懂深度学习

笔记 | 一天搞懂深度学习

作者: 步晓德 | 来源:发表于2018-06-16 23:19 被阅读0次

    一天搞懂深度学习是台湾大学李宏毅教授写的300页左右的PPT,是深度学习入门不错的材料,可以快速的了解深度学习的主要术语、思想、应用、趋势等。

    主要对里面的重点内容进行记录。


    Lecture 1: Introduction of Deep Learning

    深度学习的3个步骤

    1. Network Structure
      一系列函数
    2. Learning Target
      什么样的算好?优化目标是什么?
    3. Learn!
      选出来最好的

    神经网络

    类似于人类大脑的神经元


    一个神经元(Neuron)

    如果输入是k维的,对应每一维的输入都有相应的权重weights,加上bias后,再经过激活函数,得到输出的结果。

    上面是一个neuron的图示,如果把不同的neuron进行组合,或者说把某些neuron的输出作为其他neuron的输入,就得到了不同的神经网络。


    激活函数

    最基本的例子的是Sigmoid函数,在机器学习LR模型中也用到。还有比较常用的是ReLU,在Lecture 2中有进一步介绍。

    深度学习的Deep

    Hidden Layers 隐层
    Fully Connect FeedForward Network 全连接前馈网络

    深度学习的Deep就在于有多个hidden layers。


    深度大概到什么程度呢?

    • AlexNet (2012):8
    • VGG (2014):19
    • GoogleNet (2014):22
    • Residual Net (2015):152(Ultra Deep Network),跟台北101大厦有的一拼

    Output Layer

    输出层是为了做选择的,一般是softmax layer

    softmax怎么理解呢?可以简单概述为:雨露均沾+归一化。理论上只要将输出的结果取max就可以了,但是soft软在哪呢?对于不同的输出计算了一个概率,且这个概率和为1,计算方式如图所示:

    softmax

    Learning Target: min. loss

    学习的目标就是最小化所有样本的loss,一般使用均方误差或者是交叉熵。

    最小化总loss -> 找到一组最好的function达到这个目标 -> 找到functions最好的参数达到这个目标

    如何找到最好的参数呢?Learn!

    穷举是一种方法,但是参数太多,穷举的情况呈指数级,不可行。所以一般采用梯度下降法,导数的正负决定了移动的方向,导数的绝对值*学习率决定了移动的大小。经过迭代直到导数很小。

    梯度下降法存在的问题就是没法保证全局最优,不同的初始点(初始选择可以random, pre-train, RBM)可能会得到不同的结果(局部最优)。

    梯度下降

    神经网络计算梯度的算法是反向传播算法Backpropagation,简称BP。现在有很多的toolkits,可以不用纠结具体如何处理导数。


    BP

    Lecture 2: Tips for Training Deep Neural Network

    Keras

    Keras是基于TensorFlow或者Theano的高级神经网络API,更容易学习和使用,而且保持了一定的灵活性。
    Keras (κέρας) 在希腊语中意为 号角 。Documentation / 中文文档

    Keras十分的简单易用,如简单的Sequential顺序模型,可以参考快速开始:30 秒上手 Keras

    from keras.models import Sequential
    model = Sequential()
    
    from keras.layers import Dense
    model.add(Dense(units=64, activation='relu', input_dim=100))
    model.add(Dense(units=10, activation='softmax'))
    
    model.compile(loss='categorical_crossentropy',
                  optimizer='sgd',
                  metrics=['accuracy'])
    
    model.fit(x_train, y_train, epochs=5, batch_size=32)
    
    loss_and_metrics = model.evaluate(x_test, y_test, batch_size=128)
    
    classes = model.predict(x_test, batch_size=128)
    

    可以设置激活函数、输入输出的维度、loss、学习率等。

    如果想用GPU来加速训练,有如下两种方式:

    Way 1
        THEANO_FLAGS=device=gpu0 python YourCode.py
    Way 2 (in your code) 
        import os
        os.environ["THEANO_FLAGS"] = "device=cpu"
    

    Good results on training/testing data?

    在训练网络的时候,不仅要看结果在测试集上表现如何,也要看在训练集上如何,不同的情况有不同的解决方式。不要总是责怪过拟合。如下面的例子,不能只看右图就判定56-layer的过拟合了,要看在训练集上的表现,属于对56-layer 的网络训练得还不够好,可能落入了局部最优。


    Training set表现不好

    1. 选择合适的Loss function:使用Cross Entropy效果要优于Mean Square Error
    2. Mini-batch: 每次训练使用少量数据而不是全量数据效率更高
    3. Activation Function:使用ReLU替代Sigmoid可以解决梯度消失的问题,可以训练更深的神经网络。还有其他变形。
    4. Adaptive Learning Rate:Adagrad可以随着迭代不断自我调整,提高学习效率。平稳,学习率↑
    5. Momentum: 可以一定程度上避免陷入局部最低点的问题,就好像物理世界中给球增加一个动力,可以冲过局部最低点。

    深度学习最常用的算法:Adam优化算法

    ReLU
    ReLU变形
    Maxout Adagrad Momentum

    Test set表现不好 (overfitting)

    1. Early Stopping:使用cross validation的方式,不断对validation data进行检验,一旦发现预测精度下降则停止。用test set提前终止,防止overfitting。
    2. Weight Decay:参数正则化的一种方式,无用的权重萎缩->0。
    3. Dropout:在每次更新参数之前,随机丢掉p%的输入。但是要注意,在训练集上dropout,相当于改变了网络(thinner),不同的dropout得到的不同的网络,是一种ensemble。在测试集上所有的权重要乘以(1-p)%
    4. Network Structure:如CNN等
    Early stopping
    Dropout

    Lecture 3: Variants of Neural Network

    CNN (Convolutional Neural Network)

    一般用于图像,核心的想法在于一些物体的特征往往可以提取出来,并且可能出现在图片的任何位置,而且通过卷积池化可以大大减少输入数据,加快训练效率。

    • 为什么要卷积?
      一些模式(如鸟的嘴)的大小远远小于整个图片;一些相同的模式(还是如鸟的嘴)可能出现在不同的区域上。
      如果要是对每一个地方都查看,太冗余。只需要一个neuron看有没有嘴就行了。
    • 为什么要max pooling
      对像素下采样,并不会改变物体,可以让图片大小更小,参数也就更少。
    • Flatten
      把不同的位置的值flatten看作一个多维的输入。

    RNN (Recurrent Neural Network)

    有记忆的神经网络,将hidden layer的数据存储下来,然后作为输入给下一个网络学习。这种网络的想法可以解决自然语言中前后词语是存在关联性的。


    RNN
    RNN

    1-of-N encoding

    其实就是one-hot encoding,如果有一个100...00大小的词典,那么每一个单词都要用一个100..00维的向量表示,只有一位为1,其他位均为0。
    区别:"1-of-N" vs "1-of-N-1"

    word hashing

    26个字母,如果每3个字母一组,共有26^3种组合,可以用对应组合的出现情况来表示单词。

    Unfortunately

    RNN-based network is not always easy to learn.
    经常Total loss是震荡的。一般有以下helpful techniques

    • Advance momentum method
      Nesterov’s Accelerated Gradient (NAG)
    • LSTM (Long Short Term Memory)
    • GRU (Gated Recurrent Unit)
      Simplified LSTM

    Lecture 4: Next Wave

    • Supervised Learning
      - Ultra Deep Network
      - Attention Model
    • Reinforcement Learning
    • Unsupervised Learning
      - Image: Realizing what the World Looks Like
      - Text: Understanding the Meaning of Words
      - Audio: Learning human language without supervision

    参考资料

    1. 台大PPT:一天搞懂深度学习
    2. 深度学习导论 - 读李宏毅《1天搞懂深度学习》
    3. “一天搞懂深度学习”笔记

    相关文章

      网友评论

        本文标题:笔记 | 一天搞懂深度学习

        本文链接:https://www.haomeiwen.com/subject/vyqieftx.html