代码示例
x_in=torch.tensor([[0, 1, 2], [3, 4, 5], [6, 7, 8]]).view((1,1,3,3)).type(torch.FloatTensor)
y_out=torch.tensor([[19, 25],[37, 43]]).view(1,1,2,2).type(torch.FloatTensor)
c_core=torch.randn(2,2).view((1,1,2,2)).type(torch.FloatTensor)
c_core=c_core.requires_grad_()
LR=0.01
# 定义一个损失函数
loss_fun=nn.MSELoss()
for i in range(10):
y_pre=nn.functional.conv2d(x_in,c_core)
loss=loss_fun(y_pre,y_out)
print(c_core.grad)
loss.backward()
c_core=c_core-c_core.grad*LR
print('the loss is:',loss)
print('c_core: ',c_core)
遇到的具体问题:
针对这个问题,在pytoch中直接报出来的错误是:
TypeError: unsupported operand type(s) for *: 'NoneType' and 'float'
针对这个报出来的问题,定位到当计算到“”c_core=c_core-c_core.grad*LR“”这句话时报错了,然后根据上面的输出才判断出来,原来c_core的grad为None。
解决思路
后来经过查询才发现,当计算梯度的时候,只有叶子节点才会保留梯度,所有中间节点的grad在计算完backward()的时候为了节约内存都会被清除掉。(叶子节点是自己最初定义的变量)。此时查看我定义的c_core,确实是我最初定义的变量啊。但是有一些细节被忽略了,就是下面这句话:
c_core=c_core-c_core.grad*LR
其实上面这句话,已经对c_core做了改变,是经过计算得到的c_core,修改之后已经不是我们最初定义的变量了,而是成为了中间节点。为此怎么办呢?要保留中间节点其实很简单。就是在调用backward之前,首先调用c_core.retain_grad()。
最终的代码修改为:
x_in=torch.tensor([[0, 1, 2], [3, 4, 5], [6, 7, 8]]).view((1,1,3,3)).type(torch.FloatTensor)
y_out=torch.tensor([[19, 25],[37, 43]]).view(1,1,2,2).type(torch.FloatTensor)
c_core=torch.randn(2,2).view((1,1,2,2)).type(torch.FloatTensor)
c_core=c_core.requires_grad_()
LR=0.01
# 定义一个损失函数
loss_fun=nn.MSELoss()
for i in range(10):
y_pre=nn.functional.conv2d(x_in,c_core)
loss=loss_fun(y_pre,y_out)
c_core.retain_grad()
loss.backward()
c_core=c_core-c_core.grad*LR
print('the loss is:',loss)
print('c_core: ',c_core)
网友评论