[tf]进行梯度裁剪训练的方法以及设置学习率指数衰减

作者: VanJordan | 来源:发表于2018-12-12 17:23 被阅读35次

[tf]进行梯度裁剪训练的方法以及设置学习率指数衰减
learning_rate 指数衰减学习率
tensorflow笔记：4.2神经网络优化之学习率
[tf]学习率指数衰减
[tf]使用attention机制进行NMT
2019-08-18
梯度裁剪、正向传播、反向传播、搭建一个简单的神经网络
《改善深层神经网络：超参数调试、正则化以及优化》笔记(2)
AI数学基础24——学习率衰减
神经网络超参数选择

global_step = tf.Variable(0, name="global_step", trainable=False)
optim = tf.train.AdamOptimizer(learning_rate=FLAGS.learning_rate)
grads_and_vars = optim.compute_gradients(loss)
grads_and_vars_clip = [[tf.clip_by_value(g,-FLAGS.clip_grad,FLAGS.clip_grad), v] for g, v in grads_and_vars]
train_op = optim.apply_gradients(grads_and_vars_clip, global_step=global_step)

def get_optimizer(self):
        '''
        选择优化器
        :return:
        '''
        with tf.variable_scope("optimizer"):
            self.lr = tf.train.exponential_decay(self.learning_rate,
                                            self.global_step, 15000, 0.99, staircase=True)
            optimizer = self.optimizer        # adam
            if optimizer == "sgd":
                self.opt = tf.train.GradientDescentOptimizer(self.lr)
            elif optimizer == "adam":
                self.opt = tf.train.AdamOptimizer(self.lr)
            elif optimizer == "adgrad":
                self.opt = tf.train.AdagradOptimizer(self.lr)
            else:
                raise KeyError

            grads_vars = self.opt.compute_gradients(self.loss)  # len(grads_vars) 12

            capped_grads_vars = [[tf.clip_by_value(g, -self.clip, self.clip), v]  for g, v in grads_vars]  # 梯度进行截断（更新）
            self.train_op = self.opt.apply_gradients(capped_grads_vars, self.global_step)  # global_step要求解的一个值