Pytorch的反向传播backward()详解
在Pytorch中,我们有时候会进行多个loss的回传,然而回传中,会发生一些错误。例如:
RuntimeError: Trying to backward through the graph a second time, but the saved intermediate results have already been freed. Specify retain_graph=True when calling backward the first time.
以下我们举几个回传例子便可理解:
1、当我们对同一个loss进行多次回传时:即
loss.backward()
loss.backward()
上述回传方式必然出错。这时我们只需要在backward()中加入参数retain_graph=True后,便可正常回传。此时两次的回传损失会叠加。需要注意,当我们的对相同的loss回传多次,只有最后一次不加retain_graph参数外,其余都得加,否则报错。例子如下:
import torch
from torch.autograd import Variablex = Variable(torch.FloatTensor([3]), requires_grad=True)
y = x * 2 + x 2 + 3
print(y)
y.backward(retain_graph=True) # 设置 retain_graph 为 True 来保留计算图
print(x.grad)
y.backward() # 再做一次自动求导,这次不保留计算图
print(x.grad)# 输出
# tensor([18.], grad_fn=<AddBackward0>)
# tensor([8.])
# tensor([16.])
2、当然,以上是对同一个loss进行回传。那么对多个不同loss回传呢?例如:
loss1.backward()
loss2.backward()
此时是可以正常回传的,且两次的回传结果会进行叠加。例子:
import torchx = torch.tensor(2.0, requires_grad=True)
y = x2
z = x
# 反向传播
y.backward()
print(x.grad)
# tensor(4.)
z.backward()
print(x.grad)
# tensor(5.) ## 累加
3、当然,以上回传我们还可以加在一起,一并回传,那么梯度也会叠加,同上面的结果等价。例如:
loss = loss1 + loss2
loss.backward()
4、但是,在有些时候,我们会同时训练两个网络,例如生成对抗网络(GAN)。我们在利用方式3的回传时,也会报错,因为两个网络之间有了交叉。这时候,我们就需要用上方式2的分步回传了,结果是不变的。然而,需要注意:我们的回传某个网络的loss时,是不能有其他网络输出的可求导数据的,也就是我们在将其他网络的输出传入需要回传的网络进行结果的损失计算时,需要将其他网络的输出加上detach()才不会报错。例子:这里我们回传D网络,所以G网络得加detach()。
fake = netG(noise)
output = netD(fake.detach()) # 加上detach()errD_fake = loss_function(output, label)
errD_fake.backward()