Adagrad和Adam一样,也是一种自适应学习率算法
from deep learning bookPytorch是这么实现的:
state['sum'].addcmul_(1, grad, grad)
std = state['sum'].sqrt().add_(group['eps'])
p.data.addcdiv_(-clr, grad, std)
其中state['sum']即算法中的r,累计梯度平方和。
网友评论