卷积层在神经网络中如何运算？

作者: 笑傲NLP江湖 | 来源:发表于2021-07-08 10:26 被阅读0次

1 前言

卷积神经网络（Convolutional Neural Networks, CNN）的核心是进行卷积运算操作。在实际应用中往往采用多层网络结构，因此又被称为深度卷积神经网络。本文将从单个卷积的计算出发，带大家掌握卷积层在神经网络中的运算方法。

2 标准卷积结构

2.1 单个卷积的计算

要想了解卷积层在神经网络中的计算过程，我们首先需要了解单个“卷积”是如何运作的。

想必大家在学习CNN的过程中都见过下图（出处在此，这上面有各种各样的卷积gif图）：

image

input_shape=(5,5)，kernelsize=(3,3)，padding=‘same’，stride=1，output_shape=(5,5)

在此图中：

蓝色部分代表原图（或“前一层特征图”），数值为原图的像素值；
绿色部分代表卷积所得到的结果（或“后一层特征图”），数值为计算所得像素值；
白色虚线部分代表扩充的padding，数值为0（此时padding='same'，向外扩充1格以保证前后特征图大小一致）；
在蓝白图上不停扫动的深色矩形代表卷积核（数值由随机初始化而来）。

在此次计算中：

当卷积核扫到底图（蓝+白）的左上角时，卷积核中的9个数字依次与底图上的9个数字相乘，而后对这乘得的9个数字进行求和，这样我们就得到了顶图（绿）的第一个值。
以此类推，我们每进行一次上述运算，都把卷积核的位置向右移动一位，等卷积核向右移动到头时，就把卷及核向左归位并下移一行，继续进行同样的运算。
待上图的长、宽都与底图相等时，这一次卷积也就计算完了。

Ps：在实际应用中，每一个输出的特征图还会配备一个偏置bais，在上图中无表示。

2.2 卷积层在神经网络中的运算

了解完单个卷积是如何计算的之后，我们就可以从神经网络的角度来看‘卷积层’的运算过程了。下图展示的是输入三通图像（8*8*3）经一层卷积结构，输出两通特征图（8*8*2）的计算过程：

image

卷积参数：input_shape=(8,8,3)，kernelsize=(3,3)，padding=‘same’，stride=1，output_shape=(8,8,2)

在此图中：

A：原图（3通道，8*8）
B：展平了方便看的原图
C：不同的卷积核（以颜色和虚线类型区分）
D：不同卷积核在底图上扫过所得到的单个计算结果图（以颜色和虚线类型区分）
E：展平了方便看的输出图
F：输出图（2通道，8*8）

在此次卷积层的运算中：

首先我们来关注一下输入和输出，他俩的尺度都是（8*8），而输入是3通道，输出是2通道（深度学习中不管干啥一定要先看输入输出，对一层是这样，对整个模型也是这样）。

其次就准备进入我们最熟悉的卷积核计算了，可是在此之前我们得知道，这个运算过程中到底发生了几次卷积核计算呢？有的朋友可能要说，卷积的一大特性就是‘权值共享’，有几通输出就有几个卷积核，每个卷积核把输入特征图从头扫到尾。然而这个其实是不对的！

实际上，在卷积核计算数量问题上，应该是“有几通道的输出就有几套卷积核，每套内的卷积核数量与输入通道数相等”，就像我在上图中所画的：

由C中的上下两套，每套三个卷积核去扫输入的3张图（颜色一一对应）；
得到D中的两套，每套3张计算结果图；
在经求和及加入偏置量，得到要输出的2通道结果。

至此，这一个卷积层的运算就全部完成了。

2.3 “可训练参数”验证

毕竟空口无凭，下面我来通过“可训练参数”的数量，来为大家验证一下卷积层是不是按我说的这么运算的。大家应该知道，一个卷积层内的“可训练参数”，其实就是指的卷积核里的那些值，以及要加的偏置量，那么如果按照前面描述的计算方法来看，一个卷积层内的“可训练参数有多少呢”？我们可知：

我们的卷积核边长为3（简写为 $k_{w}$ 及 $k_{h}$ ）
输入3通道（input_channel，简写为 $C_{in}$ ）
输出2通道（output_channel，简写为 $C_{out}$ ）

由此可得到：

单个卷积核内的参数量为： $k_{w} * k_{h}=3*3=9$
卷积核数量为： $C_{in}$ * $C_{out}= 3 * 2 = 6$
偏置数量为： $C_{out}= 2$

那么按理说可训练参数量应为：

$\begin{aligned} params&=单个卷积核内的参数量*卷积核心数量+偏置数量\\ &=k_{w} * k_{h}*C_{in}*C_{out}+C_{out}\\ &=3*3*3*2+2\\ &=56 \end{aligned}\\$

让我们用keras的summary()来验证一下：

image

很棒！

记住，普通卷积层的可训练参数量为：

$\begin{aligned} params&=单个卷积核内的参数量*卷积核心数量+偏置数量\\ &=k_{w} * k_{h}*C_{in}*C_{out}+C_{out}\\ \end{aligned}\\$

Ps：还有一个衡量模型大小、复杂度的量叫做“理论计算量FLOPs”（floating point operations）。它通常只考虑Conv、FC等参数层的乘、加操作的数量，并且“纯加”操作也会被忽略（例如bias）。卷积层运算中的FLOPs计算公式为：
$\begin{aligned} FLOPs=k_{w} * k_{h}*C_{in}*C_{out}*W*H\\ \end{aligned}\\$

Ps：这里还要为大家明确一个“感受野”的概念，简单来讲就是卷积神经网络中的某一层特征图上的一个点，对应到原图上可以关联到多少个点，我们用一张图来解释一下：

image

上图展示的是一个3层一维卷积，kernel_size=3，我们可以看到：顶层左一的像素与底层左起7个像素值有关，这时候就代表它的感受野有7。我们可以显而易见的得出以下两个结论：

kernel_size不变的情况下，层数越深，感受野越大；
层数不变的情况下，kernel_size越大，感受野越大。

这个感受野在后续的卷积的拆分讲解中还要用到。

卷积层在神经网络中如何运算？

1 前言

2 标准卷积结构

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读