深度学习（四）卷积神经网络CNN

作者: 升不上三段的大鱼 | 来源:发表于2020-05-01 07:20 被阅读0次

由全连接层组成的网络，已经有了很强大的功能，可以表示出输入间的任意线性关系，但是在实际应用中，需要处理的数据不仅仅是简单二维数组，更多的是图片视频等。假设有一张512x512的图片，通过一个有8个神经元的隐藏层，就有 $(512^2+1)\times8$ 个参数需要计算（没有算上RGB通道），很显然这是不现实的。

1. 卷积

卷积运算在图片上可以实现边缘检测，也就是通过不同的卷积核提取出不同的边缘特征，这些合在一起就能够提取出一张图片里的主要特征，从而判断图片所属的类别（对于图片分类而言）。
$(f *g)(x,y) = \int\limits_\infty^\infty f(\tau)g(x-\tau) d\tau$
卷积运算的过程，将卷积核与矩阵上对应位置的值相乘后的和，放在输出矩阵对应的位置，输出的矩阵也就是通过卷积得到的特征矩阵，不同的卷积核可以得到不同的特征输出。把不同的特征组合起来，就能得到输入图像的特征。
举个例子，有一个矩阵 $a$ ，与垂直边缘检测的卷积核 $b$ 做卷积，得到了 $c$

import numpy as np
from scipy import signal
import matplotlib.pyplot as plt

a = np.zeros((6,6))
a[:,:3] = 10

b =  np.array([1,0,-1],[1,0,-1],[1,0,-1])

c = signal.correlate2d(a,b, mode='valid')

plt.imshow(a,cmap='gray')
plt.imshow(b,cmap='gray')
plt.imshow(c,cmap='gray')

卷积图示

从图上可以看出，在矩阵 $a$ 对应的黑白图像中有一个垂直的边界，在与 $b$ 做卷积之后，得到了一个中间有值边缘为0的矩阵，也就是一个中间有一条白色的图，说明矩阵 $a$ 在中间的位置有一条垂直的边缘。这就是卷积能够提取特征的直观解释。（例子来自于吴恩达的视频：https://www.youtube.com/watch?v=XuD4C8vJzEQ，代码自己写的）
顺便说一下在scipy.signal里有correlated2d和convolve2d。 correlated2d计算的是互相关（cross correlated），和直接手算的结果一样；convolve2d的结果会多一个负号。

2. 卷积神经网络

卷积神经网络主要包括了四个部分：

卷积层：特征提取
激活函数：提供非线性
池化层：减少参数的数量
最后的全连接层：分类

卷积层 就像上面所说的，将输入与卷积核进行运算，卷积核的大小一般有 $3\times 3, 5\times5, 7\times7...$ ,在做卷积的时候，是同一个的卷积核遍历图片上的像素点，也就是在图片上一个地方重要的特征，在图片另一个地方同样也很重要，整个图片共享同样的权值。

Padding 在卷积运算的过程中，输出的尺寸往往会比输入小，比如假设输入大小 $7\times7$ ，卷积核大小 $3\times3$ ，输出大小 $5\times5$ ，这种计算方式被称作Valid padding；如果想要输出和输入保持同样的大小，需要在输入矩阵周围加上一圈0，比如在刚刚 $7\times7$ 的矩阵周围加上零，变成 $9\times9$ ，那么输出的大小就是 $7\times7$ ，这种方式被称为Same padding。

Stride 注意到卷积相当于一个二维的滑动窗口在图片上移动，就像在一维信号上的滑动窗口，二维的卷积也可以有移动的步长，具体的网上有动图。通过设置步长，可以减小输出的大小。还有一种方式叫做Dilated Convolution，在卷积核里跳过一些像素点，目的是扩大接受野。

上面讲到的例子里的卷积都是在二维图片上进行的，但是彩色的图片一般都是RGB三通道的，也就是有三个维度，长、宽、通道 $X \times Y \times C$ ，假设现在我们有 $H$ 个卷积核，每个卷积核大小为 $M \times N \times C$ ，首先第一个卷积核与输入矩阵做卷积，得到一个 $X \times Y \times 1$ 的矩阵（假设用的same padding），然后与剩下的卷积核挨个做卷积，将所有卷积得到的 $H$ 个 $X \times Y \times 1$ 的薄片叠在一起，得到一个 $X \times Y \times H$ 的新矩阵，这就是输出矩阵。

在多通道图片上的卷积
激活函数 一般用的都是ReLU。
池化层 目的是为了减少参数的数量，避免过拟合。通过卷积层可以提取出特征，但是并不是所有特征都是重要的，池化的思想就是提取出某一小块区域的主要特征传递给下一层。Max Pooling选取一个范围（），取其中的最大值作为输出矩阵对应位置的值，然后移动到下一个区域，是最常用的池化方法。Average Pooling是取区域内的均值。
全连接层 用于分类，但是可以被Global Average Pooling层代替，GAP可以减少参数，并且适用于任何大小的输入（论文 Network in Network）。

下一篇来写如何用python徒手实现CNN。

网友评论

鱼的深度学习

本文标题：深度学习（四）卷积神经网络CNN

本文链接：https://www.haomeiwen.com/subject/innuwhtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

深度学习（四）卷积神经网络CNN

1. 卷积

2. 卷积神经网络

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

鱼的深度学习