本文将通过一个例子,使用torch.nn
中Module类的继承来完整实现一个多层神经网络的正向传播过程。此外,文中将介绍类继承过程中定义init()函数时super()的用法,以及我们从Module类中继承的比较重要的属性和方法。
使用类继承构建多层神经网络
我们有500条数据,20个特征,标签3分类。我们要实现一个三层神经网络,架构是:第一层有13个神经元,第二层有8个神经元,第三层是输出层。第一层的激活函数是ReLU,第二层的激活函数是sigmoid。
import torch
import torch.nn as nn
from torch.nn import functional as F
torch.manual_seed(56)
X = torch.rand((500,20), dtype=torch.float32)
y = torch.randint(low=0, high=3, size=(500,1), dtype=torch.float32)
class Model(nn.Module):
def __init__(self, in_feature=10, out_feature=2):
super(Model, self).__init__() # super(请查找这个类的父类,请使用找到的父类替换现在的类)
self.linear1 = nn.Linear(in_feature, 13)
self.linear2 = nn.Linear(13, 8)
self.output = nn.Linear(8, out_feature)
def forward(self, X):
z1 = self.linear1(X)
sigma1 = torch.relu(z1)
z2 = self.linear2(sigma1)
sigma2 = torch.sigmoid(z2)
z3 = self.output(sigma2)
sigma3 = torch.softmax(z3, dim=1)
return sigma3
input_ = X.shape[1]
output_ = len(y.unique())
torch.manual_seed(56)
# 实例化
net = Model(input_, output_)
# 实例化之后,每一层上的 w 和 b 都已经生成,可以查看
print(net.linear1.weight)
Parameter containing:tensor([[ 0.2026, 0.0271, -0.0655, 0.1992, -0.0145, 0.1020, -0.1002, -0.0119, 0.1066, 0.0126, -0.1245, 0.1228, -0.0226, -0.1017, -0.0427, 0.0562, 0.0399, 0.0065, -0.1053, -0.0780], [-0.0044, -0.0905, -0.1948, -0.1288, 0.0267, -0.0784, 0.0582, 0.1223, 0.1214, -0.0681, 0.0774, -0.0114, 0.0150, -0.2039, 0.1884, 0.0838, 0.1620, -0.0970, 0.0030, 0.0983], [ 0.0034, -0.0205, -0.0287, 0.0819, -0.1646, 0.1251, -0.2007, -0.1593, 0.1860, 0.1312, -0.1645, -0.1109, 0.1805, 0.1280, 0.1205, -0.1404, -0.0050, 0.0415, 0.0679, 0.1617], [ 0.1565, -0.2119, 0.2214, -0.1548, -0.0585, 0.0377, 0.0187, -0.0099, -0.0367, -0.1063, -0.1026, -0.0885, 0.0888, 0.0392, 0.1710, -0.0955, -0.0967, -0.0941, 0.0679, 0.0539], [ 0.2006, 0.1116, -0.1920, -0.0584, -0.1183, 0.1780, -0.0776, 0.1301, 0.0225, -0.1157, -0.0586, -0.1633, 0.0332, -0.1661, -0.2216, 0.0909, 0.0035, 0.0275, -0.1320, -0.2099], [ 0.0762, 0.2087, -0.1018, -0.0233, 0.0147, -0.0665, -0.1019, -0.0983, -0.1971, -0.1417, -0.1219, -0.0593, -0.1787, -0.2178, -0.0356, -0.2212, -0.0416, 0.0761, 0.1950, 0.1866], [ 0.1036, -0.1731, 0.1797, -0.2172, -0.0448, 0.0914, -0.2102, 0.0303, -0.0822, 0.1774, 0.1678, 0.0384, 0.1171, -0.1475, 0.1399, -0.0578, -0.1034, -0.0722, 0.0257, -0.0691], [ 0.0394, 0.1864, -0.0188, -0.1142, -0.0841, 0.1724, -0.1236, 0.1582, -0.0204, -0.1540, -0.1656, 0.0723, 0.1526, -0.0112, -0.0990, 0.2153, -0.1883, -0.1261, 0.2181, -0.1545], [-0.1471, -0.0359, -0.1284, 0.0367, -0.1642, -0.0769, -0.1434, -0.1353, -0.1595, 0.0540, 0.1359, 0.0225, 0.1264, -0.0603, -0.1693, 0.1690, -0.2070, 0.0350, -0.0659, -0.2145], [-0.0391, 0.1117, 0.1956, 0.1395, 0.2217, -0.0992, 0.0012, -0.1885, -0.1674, 0.1267, 0.1073, -0.2163, -0.1634, 0.0895, -0.0980, -0.0037, 0.0815, 0.1362, -0.0230, 0.0268], [ 0.1751, 0.0276, 0.1156, -0.1230, -0.1476, -0.0380, -0.2219, 0.0996, -0.0029, -0.2091, 0.0052, -0.1022, -0.1394, -0.0248, -0.0215, 0.0547, -0.1111, 0.0430, 0.1161, -0.1190], [ 0.0270, -0.0523, -0.0982, -0.0415, 0.1254, 0.1723, 0.0973, -0.1121, 0.0741, 0.0173, -0.1774, 0.0391, 0.1747, -0.0288, -0.0660, -0.1328, -0.2027, -0.2232, -0.1593, -0.1749], [ 0.0069, -0.1624, -0.0700, -0.1098, 0.2032, 0.2161, -0.1614, -0.1776, 0.1222, 0.1241, -0.1250, -0.0562, -0.0095, -0.1720, 0.2203, 0.0983, 0.0642, 0.2053, -0.1722, -0.1754]], requires_grad=True)
net.linear1.weight.shape
torch.Size([13, 20])
print(net.linear1.bias)
Parameter containing:tensor([ 0.0224, 0.0952, -0.2218, 0.1198, -0.1646, -0.1156, -0.1916, -0.2218, 0.1555, -0.1998, 0.1357, -0.2001, -0.1915], requires_grad=True)
# 代入数据,查看正向传播结果
sigma = net.forward(X)
print(sigma)
tensor([[0.3321, 0.2617, 0.4063], [0.3346, 0.2569, 0.4085], [0.3465, 0.2532, 0.4002], ..., [0.3382, 0.2543, 0.4075], [0.3332, 0.2598, 0.4069], [0.3359, 0.2578, 0.4062]], grad_fn=<SoftmaxBackward>)
print(sigma.max(axis=1))
此处代码结果展示省略
关于类中 super() 函数的用法
当我们用继承父类的方式定义一个类时,所定义的类自动继承了父类中的方法和属性,除了定义在父类 __init__()
中的属性。
我们用下面的例子来具体说明:
# 建立一个父类
class FooParent(object):
def __init__(self):
self.parent = "PARENT!!"
print("Parent running __init__")
def bar(self, message):
self.bar = "This is a bar"
print("%s from Parent" %message)
# 实例化 FooParent,实例化的瞬间,运行了 FooParent 的 __init__ 函数
FooParent()
Parent running __init__
<__main__.FooParent at 0x1553bf88a00>
# 查看实例化后 __init__ 中定义的属性 .parent
FooParent().parent
Parent running __init__
'PARENT!!'
# 建立一个子类
class FooChild(FooParent):
def __init__(self):
print("Child running __init__")
# 实例化 FooChild,实例化的瞬间,运行了 FooChild 的 __init__ 函数
FooChild()
Child running __init__
<__main__.FooChild at 0x1553bf88580>
# FooChild 继承了 FooParent 中的属性和方法
FooChild().bar("hello world")
Child running __init__
hello world from Parent
# FooChild 没有继承 FooParent 的 __init__() 中的属性
FooChild().parent
Child running __init__
AttributeError
: 'FooChild' object has no attribute 'parent'
# 重新建立一个 FooChild 的子类,并使用super函数
class FooChild(FooParent):
def __init__(self):
super(FooChild, self).__init__()
print("Child running __init__")
# 实例化重新建立的 FooChild,实例化的瞬间,运行了 FooChild 的 __init__ 函数
FooChild()
Parent running __init__
Child running __init__
<__main__.FooChild at 0x1553bf88a90>
# 重新建立的 FooChild 继承了 FooParent 的 __init__() 中的属性
FooChild().parent
Parent running __init__
Child running __init__
'PARENT!!'
如果想要在子类__init__()
中定义一个和父类中同名的属性并取代父类中该属性,请确保在执行super()
函数后再重新定义该属性。
class FooChild(FooParent):
def __init__(self):
self.parent = "HAHA"
super(FooChild, self).__init__()
print("Child running __init__")
FooChild().parent
Parent running __init__
Child running __init__
'PARENT!!'
在上述例子中,由于FooChild子类中的parent属性先于super()
函数,被FooParent中的parent属性所覆盖。我们将代码中的顺序调换:
class FooChild(FooParent):
def __init__(self):
super(FooChild, self).__init__() # 先运行super()函数
self.parent = "HAHA" # 再重新定义parent属性
print("Child running __init__")
FooChild().parent
Parent running __init__
Child running __init__
'HAHA'
此时,输出的parent属性即为在FooChild子类中自定义的parent属性。
在我们通过继承 nn.Module 来构建多层神经网络时,使用super()函数十分重要,否则神经网路的向前传播将无法进行。
从 nn.Module 中继承的比较重要的属性和方法
回到一开始我们自己建立的多层神经网络正向传播的类Model
,看看有哪些比较重要的属性和方法。
input_ = X.shape[1]
output_ = len(y.unique())
torch.manual_seed(56)
# 实例化
net = Model(input_, output_)
net.training
True
# 使用GPU运行net
# net.cuda()
# 使用CPU运行net
# net.cpu()
# net.parameters(): 一个迭代器,可以通过循环的方式查看里面的内容
# 里面为整个神经网络全部的参数值,包括所有 w 和 b
for param in net.parameters():
print(param)
此处代码结果展示省略
net.linear1.weight
此处代码结果展示省略
# 只输出 net.linear1.weight 中的 tensor 中的内容
net.linear1.weight.data
tensor([[ 0.2026, 0.0271, -0.0655, 0.1992, -0.0145, 0.1020, -0.1002, -0.0119, 0.1066, 0.0126, -0.1245, 0.1228, -0.0226, -0.1017, -0.0427, 0.0562, 0.0399, 0.0065, -0.1053, -0.0780], [-0.0044, -0.0905, -0.1948, -0.1288, 0.0267, -0.0784, 0.0582, 0.1223, 0.1214, -0.0681, 0.0774, -0.0114, 0.0150, -0.2039, 0.1884, 0.0838, 0.1620, -0.0970, 0.0030, 0.0983], [ 0.0034, -0.0205, -0.0287, 0.0819, -0.1646, 0.1251, -0.2007, -0.1593, 0.1860, 0.1312, -0.1645, -0.1109, 0.1805, 0.1280, 0.1205, -0.1404, -0.0050, 0.0415, 0.0679, 0.1617], [ 0.1565, -0.2119, 0.2214, -0.1548, -0.0585, 0.0377, 0.0187, -0.0099, -0.0367, -0.1063, -0.1026, -0.0885, 0.0888, 0.0392, 0.1710, -0.0955, -0.0967, -0.0941, 0.0679, 0.0539], [ 0.2006, 0.1116, -0.1920, -0.0584, -0.1183, 0.1780, -0.0776, 0.1301, 0.0225, -0.1157, -0.0586, -0.1633, 0.0332, -0.1661, -0.2216, 0.0909, 0.0035, 0.0275, -0.1320, -0.2099], [ 0.0762, 0.2087, -0.1018, -0.0233, 0.0147, -0.0665, -0.1019, -0.0983, -0.1971, -0.1417, -0.1219, -0.0593, -0.1787, -0.2178, -0.0356, -0.2212, -0.0416, 0.0761, 0.1950, 0.1866], [ 0.1036, -0.1731, 0.1797, -0.2172, -0.0448, 0.0914, -0.2102, 0.0303, -0.0822, 0.1774, 0.1678, 0.0384, 0.1171, -0.1475, 0.1399, -0.0578, -0.1034, -0.0722, 0.0257, -0.0691], [ 0.0394, 0.1864, -0.0188, -0.1142, -0.0841, 0.1724, -0.1236, 0.1582, -0.0204, -0.1540, -0.1656, 0.0723, 0.1526, -0.0112, -0.0990, 0.2153, -0.1883, -0.1261, 0.2181, -0.1545], [-0.1471, -0.0359, -0.1284, 0.0367, -0.1642, -0.0769, -0.1434, -0.1353, -0.1595, 0.0540, 0.1359, 0.0225, 0.1264, -0.0603, -0.1693, 0.1690, -0.2070, 0.0350, -0.0659, -0.2145], [-0.0391, 0.1117, 0.1956, 0.1395, 0.2217, -0.0992, 0.0012, -0.1885, -0.1674, 0.1267, 0.1073, -0.2163, -0.1634, 0.0895, -0.0980, -0.0037, 0.0815, 0.1362, -0.0230, 0.0268], [ 0.1751, 0.0276, 0.1156, -0.1230, -0.1476, -0.0380, -0.2219, 0.0996, -0.0029, -0.2091, 0.0052, -0.1022, -0.1394, -0.0248, -0.0215, 0.0547, -0.1111, 0.0430, 0.1161, -0.1190], [ 0.0270, -0.0523, -0.0982, -0.0415, 0.1254, 0.1723, 0.0973, -0.1121, 0.0741, 0.0173, -0.1774, 0.0391, 0.1747, -0.0288, -0.0660, -0.1328, -0.2027, -0.2232, -0.1593, -0.1749], [ 0.0069, -0.1624, -0.0700, -0.1098, 0.2032, 0.2161, -0.1614, -0.1776, 0.1222, 0.1241, -0.1250, -0.0562, -0.0095, -0.1720, 0.2203, 0.0983, 0.0642, 0.2053, -0.1722, -0.1754]])
# 替换 net.linear1.weight 中的 tensor 中的内容
net.linear1.weight.data.fill_(0)
tensor([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.], [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.], [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.], [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.], [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.], [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.], [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.], [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.], [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.], [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.], [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.], [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.], [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]])
# 重新查看 net.linear1.weight.data 中的内容
net.linear1.weight.data
tensor([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.], [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.], [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.], [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.], [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.], [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.], [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.], [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.], [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.], [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.], [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.], [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.], [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]])
# net.apply(): 对__init__()中所有的对象(全部层)都执行同样的操作
def initial_0(m):
# 参数 m 代表层
print(m)
if type(m) == nn.Linear:
m.weight.data.fill_(0)
print(m.weight)
net.apply(initial_0)
此处代码结果展示省略
网友评论