美文网首页
pyTorch入门3

pyTorch入门3

作者: 韧心222 | 来源:发表于2024-01-09 11:02 被阅读0次

pyTorch入门3

参考了《pyTorch实战》《动手学深度学习(pyTorch版)》

1. 层(Layer)和块(Module)

神经网络是由许多层组成的,而在大型的神经网络中,许多层又构成了比层大一些的组件——块。

如果熟悉C或C++的话,可以把层看做是基本数据类型,把块看作是结构体Struct,例如之前介绍的nn.Sequential就可以看作是一种特殊的块。

1.1 自定义块

下面来实现一个多层感知机的块,要定义一个块,一般需要继承自torch.nn.Module,同时实现两个函数,分别是

  • __init__(self)
  • forward(self, X) 前向传播函数

注意:当调用前向传播时,不要直接使用forward()函数,而是应该实例化块后,像使用函数一样使用该变量,进而获得前向传播的效果,此时,pyTorch会调用nn.Module__call__()函数,进而在其中调用forward(),从而实现前向传播。

import torch
from torch import nn
from torch.nn import functional as F

class MLP(nn.Module):
    # 用模型参数声明层。这里,我们声明两个全连接的层
    def __init__(self):
        # 调用MLP的父类Module的构造函数来执行必要的初始化。
        # 这样,在类实例化时也可以指定其他函数参数,例如模型参数params
        super().__init__()
        self.hidden = nn.Linear(20, 256)  # 隐藏层
        self.out = nn.Linear(256, 10)  # 输出层

    # 定义模型的前向传播,即如何根据输入X返回所需的模型输出
    def forward(self, X):
        # 注意,这里我们使用ReLU的函数版本,其在nn.functional模块中定义。
        return self.out(F.relu(self.hidden(X)))
    
X = torch.rand(2, 20)
net = MLP()
print(net(X))
print(net.forward(X)) # 不要这样做,否则会导致很多钩子函数无法调用
tensor([[ 0.0758,  0.2157,  0.0882, -0.3040,  0.2303,  0.0867, -0.1976, -0.0529,
         -0.0375,  0.0187],
        [-0.1651,  0.1769, -0.0810, -0.2636,  0.1494,  0.1209, -0.1045,  0.0484,
         -0.0541,  0.1236]], grad_fn=<AddmmBackward0>)
tensor([[ 0.0758,  0.2157,  0.0882, -0.3040,  0.2303,  0.0867, -0.1976, -0.0529,
         -0.0375,  0.0187],
        [-0.1651,  0.1769, -0.0810, -0.2636,  0.1494,  0.1209, -0.1045,  0.0484,
         -0.0541,  0.1236]], grad_fn=<AddmmBackward0>)

1.2 自定义顺序块

下面的代码实现了一个自己定义的顺序块,在其中的__init__()函数中,我们使用_modules属性(_module的数据类型是OrderedDict,因此在forward()函数中,需要使用values()来进行遍历)来保存每个加入到该顺序块中的子块。之所以这样做,我的理解是为后续能够找到每层的参数提供一个标准化的变量,进而实现模型参数的递归遍历。

class MySequential(nn.Module):
    def __init__(self, *args):
        super().__init__()
        for idx, module in enumerate(args):
            # 这里,module是Module子类的一个实例。我们把它保存在'Module'类的成员
            # 变量_modules中。_module的类型是OrderedDict
            self._modules[str(idx)] = module

    def forward(self, X):
        # OrderedDict保证了按照成员添加的顺序遍历它们
        for block in self._modules.values():
            X = block(X)
        return X

2 模型参数

2.1 参数的查看

在查看模型的参数上,主要由三个函数,分别是:

  • model.state_dict():返回一个OrderedDict对象,一般用于模型的保存
  • model.parameters():返回一个生成器(generator,即用yield返回),只包含了层的权重,一般用于优化器的初始化
  • model.named_parameters():返回一个生成器,其中包含了层的名称以及层的权重
import torch
from torch import nn

net = nn.Sequential(nn.Linear(4, 8), nn.ReLU(), nn.Linear(8, 1))
X = torch.rand(size=(2, 4))
net(X)
tensor([[0.3910],
        [0.3429]], grad_fn=<AddmmBackward0>)
net[0].state_dict()
OrderedDict([('weight',
              tensor([[-0.2085,  0.0465,  0.3837, -0.0263],
                      [ 0.2905,  0.1418, -0.1686,  0.3553],
                      [-0.3393, -0.0554, -0.1383, -0.0337],
                      [ 0.0722, -0.2049, -0.4940, -0.4341],
                      [-0.1917,  0.3491, -0.2002, -0.4147],
                      [-0.1582,  0.4971, -0.4866,  0.4300],
                      [-0.2066,  0.2952, -0.0132,  0.3540],
                      [ 0.1061, -0.2398, -0.3574,  0.2755]])),
             ('bias',
              tensor([-0.4946, -0.3924, -0.3753,  0.1968, -0.3885, -0.3502,  0.2036, -0.0082]))])
print(net.parameters())
print(net.named_parameters())
<generator object Module.parameters at 0x00000152F0664740>
<generator object Module.named_parameters at 0x00000152F0664740>
print(*[param.shape for param in net.parameters()])
torch.Size([8, 4]) torch.Size([8]) torch.Size([1, 8]) torch.Size([1])
print(*[(name, param.shape) for name, param in net.named_parameters()])
('0.weight', torch.Size([8, 4])) ('0.bias', torch.Size([8])) ('2.weight', torch.Size([1, 8])) ('2.bias', torch.Size([1]))

要获得特定的层的参数,可以通过层的名称进行索引,索引的方式有如下几种:

print(f"第2层的权重——类的形式:{net[2].weight}")
print(f"第2层的偏置——类的形式:{net[2].bias}")
print(f"第2层的偏置——数据的形式:{net[2].bias.data}")
print(f"第2层的梯度:{net[2].bias.grad}")

print(f"第2层的权重——数据的形式:{net.state_dict()['2.weight']}")
第2层的权重——类的形式:Parameter containing:
tensor([[-0.0497, -0.2259, -0.0557, -0.0915, -0.3122, -0.0528,  0.2824,  0.2857]],
       requires_grad=True)
第2层的偏置——类的形式:Parameter containing:
tensor([0.2492], requires_grad=True)
第2层的偏置——数据的形式:tensor([0.2492])
第2层的梯度:None
第2层的权重——数据的形式:tensor([[-0.0497, -0.2259, -0.0557, -0.0915, -0.3122, -0.0528,  0.2824,  0.2857]])

2.2 模型权重初始化

常用的初始化方法包括X吴恩达的视频中关于这一部分的理论部分讲得更加浅显一些

深度之眼这一部分(《权值初始化》)

常用的模型初始化方法包括:

  • Xavier初始化
  • Kaiming初始化

2.2.1 pyTorch中的初始化

torch中的初始化主要使用torch.nn.init模块,其中内置了多种初始化方法:

  • init.normal_(weight, mean, std) 初始化为正态分布
  • init.zeros_(bias) 初始化为全0
  • init.xavier_normal_(weight) xavier初始化,用一个正态分布生成值,填充输入的张量或变量
  • init.xavier_uniform_(weight) xavier初始化,用一个均匀分布生成值,填充输入的张量或变量
  • init.uniform_() 初始化为均匀分布
  • init.constant_(weight, val)val值填充变量weight
  • init.kaiming_normal_(weight) xavier初始化,用一个正态分布生成值,填充输入的张量或变量
  • init.kaiming_uniform_(weight) Kaiming初始化,用一个均匀分布生成值,填充输入的张量或变量
def init_normal(m):
    if type(m) ==  nn.Linear:
        nn.init.normal_(m.weight, mean=0, std=.01)
        nn.init.zeros_(m.bias)

net.apply(init_normal)
print(net[0].weight.data[0])
print(net[0].bias.data[0])
tensor([ 0.0079, -0.0053, -0.0052, -0.0114])
tensor(0.)

还可以对特定的块或者层进行初始化:

def init_xavier(m):
    if type(m) == nn.Linear:
        nn.init.xavier_uniform_(m.weight)

def init_42(m):
    if type(m) == nn.Linear:
        nn.init.constant_(m.weight, 42)

net[0].apply(init_xavier)
net[2].apply(init_42)

print(net[0].weight.data[0])
print(net[2].weight.data)
tensor([ 0.0540, -0.2176,  0.1471,  0.4690])
tensor([[42., 42., 42., 42., 42., 42., 42., 42.]])

2.2.2 参数绑定

如果需要在多个层间共享参数,可以定义一个稠密层,然后用这个稠密层的参数来设置另一个层的参数:

shared = nn.Linear(8, 8)

net = nn.Sequential(nn.Linear(4,8),
                    nn.ReLU(),
                    shared, 
                    nn.ReLU(),
                    shared,
                    nn.ReLU(),
                    shared,
                    nn.Linear(8, 1))
net(X)
print(net[2].weight.data[0] == net[4].weight.data[0])

net[2].weight.data[0,0] = 100
print(net[2].weight.data[0] == net[4].weight.data[0])
tensor([True, True, True, True, True, True, True, True])
tensor([True, True, True, True, True, True, True, True])

2.3 自定义层中的参数

class MyLinear(nn.Module):
    def __init__(self, in_units, units):
        super().__init__()
        self.weight = nn.Parameter(torch.randn(in_units, units))
        self.bias = nn.Parameter(torch.randn(units,))
    def forward(self, X):
        linear = torch.matmul(X, self.weight.data) + self.bias.data
        return F.relu(linear)

相关文章

  • pytorch学习资料

    1、知乎上面各种pytorch10分钟入门等资料 2、pytorch中文文档 3、https://www.jiqi...

  • PyTorch 60 分钟入门教程

    PyTorch 60 分钟入门教程:PyTorch 深度学习官方入门中文教程http://pytorchchina...

  • 新书:PyTorch深度学习入门与实战

    本书主要内容如下: 《PyTorch 深度学习入门与实战(案例视频精讲)》是基于 PyTorch 的深度学习入门和...

  • PyTorch:学习资源

    PyTorch学习资源整理: 最先看,PyTorch官方60min入门指南 对照着看,PyTorch深度学习:60...

  • 2018-04-18-pytorch框架的学习

    No.1 入门教程 (1)本站 PyTorch 教程目录 - PyTorch Tutorial (2)pytror...

  • 循环神经网络pytorch实现

    RNN pytorch 实现 LSTM 输入门: 遗忘门: 输出门: pytorch 实现 GRU 更新门: 候选...

  • PyTorch入门教程

    摘要:本文将讲解如何入门PyTorch,包括基础原理知识、numpy与PyTorch的区别以及案例研究实例。 介绍...

  • pytorch资料list

    1.官方说明文档2.入门教程3.模型代码4.《深度学习框架PyTorch:入门与实践》的对应代码],但是也可以作为...

  • Pytorch小抄宝典!

    不少读者问我,Pytorch深度学习框架怎么学,答曰:Github大法好啊! 这个是我当初入门Pytorch的教程...

  • pytorch入门教程

    1. 2. 损失函数 3. 梯度裁剪 4. 调整学习率 参考资料 [1] pytorch入门教程[2] pytor...

网友评论

      本文标题:pyTorch入门3

      本文链接:https://www.haomeiwen.com/subject/aizondtx.html