美文网首页
RL进阶 | TensorFlow熟悉

RL进阶 | TensorFlow熟悉

作者: 臻甄 | 来源:发表于2019-04-12 11:11 被阅读0次
    image.png
    • tensorflow首先要定义神经网络的结构,也就是数据流图, 然后再把数据(张量tensor)放入结构当中去运算和 training。tensor在训练时不断的在节点之间流动
    • 零阶张量为 纯量或标量 (scalar) 也就是一个数值. 比如 [1]
    • 一阶张量为 向量 (vector), 比如 一维的 [1, 2, 3]
    • 二阶张量为 矩阵 (matrix), 比如 二维的 [[1, 2, 3],[4, 5, 6],[7, 8, 9]],以此类推

    一个简单的小栗子

    # -*- coding: utf-8 -*-
    import tensorflow as tf
    import numpy as np
    
    # 创建训练数据
    x_data = np.random.rand(100).astype(np.float32) # 随机生成100个数,且用TensorFlow里常用的数据类型
    y_data = x_data*0.1 + 0.3
    
    # 搭建模型,用 tf.Variable 来创建描述 y 的参数
    Weights = tf.Variable(tf.random_uniform([1], -1.0, 1.0))
    biases = tf.Variable(tf.zeros([1]))
    y = Weights*x_data + biases
    
    
    loss = tf.reduce_mean(tf.square(y-y_data)) # 计算误差
    optimizer = tf.train.GradientDescentOptimizer(0.5) # 使用「梯度下降法」反向传递误差给optimizer
    train = optimizer.minimize(loss) # 然后交给optimizer去优化
    
    init = tf.global_variables_initializer() # 初始化神经网络结构里所有定义的变量
    sess = tf.Session() # 创建session
    sess.run(init)      # 初始化session,Very important
    
    for step in range(201):
        sess.run(train) # 开启训练
        if step % 20 == 0: # 每隔20次打印一次日志
            print(step, sess.run(Weights), sess.run(biases))
            # 用session来执行每一次数据的训练,可以把session看做是记录进会话的一个指针,指到哪里就执行哪里
    

    tensorflow 1.6/1.5和CUDA 9.0对应,1.4/1.3和CUDA 8.0对应

    用conda安装cuda8和cudnn6,参考《文章

    //先添加conda国内镜像
    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
    conda config --set show_channel_urls yes
    
    //安装cuda
    conda install cudatoolkit=8.0 -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/linux-64/
    //安装cudnn
    conda install cudnn=6.0.0 -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/linux-64/
    

    调参感想

    batch_size

    • 随着 Batch_Size 增大,处理相同数据量的速度越快。
    • 随着 Batch_Size 增大,达到相同精度所需要的 epoch 数量越来越多。
    • 由于上述两种因素的矛盾, Batch_Size 增大到某个时候,达到时间上的最优。

    隐藏层数量

    参数初始化方式

    权值和偏置值,用正态分布

    激活函数

    交叉熵
    二次

    loss的优化方式

    • 梯度下降
      (1)标准梯度下降法:计算所有样本汇总误差,根据总误差来更新神经网络里的权值。

      (2)随机梯度下降法SGD:随机抽取一个样本来计算误差,根据这个误差更新权值。
      (3)批量梯度下降法:折中方案,随机选取一个batch的样本,根据这批(多个)样本的总误差来更新权值
    • Momentum:当前权值改变会受到上一次权值改变的影响,就像小球带上了惯性(陡的地方走的快,缓的地方走的慢),缺点是容易冲过头,优点是收敛快,容易跳出局部最优解。
    • NAG(Nesterov Accelerated Gradient):在TensorFlow中和Momentum合并在同一个函数tf.train.MomentumOptimizer中,通过参数配置启用。比Momemtum更聪明,提前计算小球要到达的位置来提前放慢速度,避免冲过头。
    • Adagrad:是SGD的一种算法。对比较常见的数据使用较小的学习率去调整,对于比较罕见的学习率使用较大的学习率去调整。适合数据比较稀疏的数据集,数据样本出现的次数越多,学习率就越低。优点是不需要人为的调整学习率,可以自动调整,缺点在于迭代的次数越多,学习率可能会越来越低,趋近于零。
    • RMSprop(Root Mean Square 均方根):借鉴了Adagrad的思想,只不过用到的是「前t-1次的梯度的平方的均值+现在梯度的平方值」的开平方作为学习率的分母,这样不会出现学习率越来越低的情况,t是一个固定值,比如一直取前10次。
    • Adadelta:可以甚至不需要一个学习率,也能自动调节。
    • Adam:会存储之前衰减的平方梯度vt,同时保存之前衰减的梯度mt,经过一些处理之后再用类似于Adadelta和RMSprop。
    • tensorflow把对应的优化方式

    optimizer = tf.train.GradientDescentOptimizer(0.5)
    

    训练次数

    有时候收敛速度比较慢,就需要加大训练次数才能到比较好的准确率

    相关文章

      网友评论

          本文标题:RL进阶 | TensorFlow熟悉

          本文链接:https://www.haomeiwen.com/subject/ngqgbqtx.html