2020-06-17 对ＣＮＮ最通俗的理解

作者: vlnk2012 | 来源:发表于2020-06-17 18:00 被阅读0次

2020-06-17 对ＣＮＮ最通俗的理解
最通俗，的理解UTF-8
对java线程池的通俗理解
node export
HTTP最通俗的理解，别再背了
最通俗的理解什么是机器学习
梦想的通俗理解
restful通俗理解
通俗理解softmax
xgboost通俗理解

卷积神经网络CNN

最通俗的理解

image.png

ＣＮＮ：

提取特征的过程

先观察下面两张图：

image

怎么让机器进行匹配识别呢？

观察这两张X图，可以发现尽管像素值无法一一对应，但也存在着某些共同点。

image

看到解决思路了没有？
如上图所示，两张图中三个同色区域的结构完全一致！

从标准的X图中我们提取出三个特征（feature）：

image

只要用这三个feature便可定位到X的某个局部

image
feature在CNN中也被成为卷积核（filter），一般是3X3，或者5X5的大小。

执行卷积运算：

卷积运算就是将原始图片的与特定的Feature Detector(filter)做卷积运算(符号⊗)，卷积运算就是将下图两个3x3的矩阵作相乘后再相加

image.png

下面的动图更好地解释了计算过程：

image

中间的Feature Detector(Filter)会随机产生好几种(ex:16种):

image.png

利用Feature Detector萃取出物体的边界

image.png

回到本例中，继续执行卷积运算：

image

9个都计算完了就会变成这样:

image

这张新的图我们称之为 feature map （特征图）。

image

进行卷积对应相乘运算并求得均值后，滑动窗便开始向右边滑动。根据步长的不同选择滑动幅度。比如，若步长 stride=1，就往右平移一个像素。若步长 stride=2，就往右平移两个像素。

经过一系列卷积对应相乘，求均值运算后，终于把一张完整的feature map填满了.

image

feature map是每一个feature从原始图像中提取出来的“特征”。其中的值，越接近为1表示对应位置和feature的匹配越完整，越是接近-1，表示对应位置和feature的反面匹配越完整，而值接近0的表示对应位置没有任何匹配或者说没有什么关联。

一个feature作用于图片产生一张feature map，对这张X图来说，我们用的是3个feature，因此最终产生3个 feature map。

image

非线性激活层

对原图运算多个卷积后还要产生一组线性激活响应，而非线性激活层是对之前的结果进行一个非线性的激活响应。

在神经网络中用到最多的非线性激活函数是Relu函数，它的公式定义如下： $f(x)=max(0,x)$ ，
使用Relu函数去掉负值，更能淬炼出物体的形状:

image.png

保留大于等于0的值，其余所有小于0的数值直接改写为0。
如下图所示：>=0的值不变

image

而<0的值一律改写为0

image

得到非线性激活函数作用后的结果：

image

pooling池化层

池化层的作用是最大的目标就是减少数据量。

池化分为两种，Max Pooling 最大池化、Average Pooling平均池化。顾名思义，最大池化就是取最大值，平均池化就是取平均值。

选择池化尺寸为2x2，因为选定一个2x2的窗口，在其内选出最大值更新进新的feature map。

image

同样向右依据步长滑动窗口:

image

最终得到池化后的feature map。可明显发现数据量减少了很多。
最大池化保留了每一个小块内的最大值，相当于保留了这一块最佳匹配结果（因为值越接近1表示匹配越好）。

到这里就介绍了CNN的基本配置---卷积层、Relu层、池化层。

在常见的几种CNN中，这三层都是可以堆叠使用的，将前一层的输入作为后一层的输出。比如：

image

也可以自行添加更多的层以实现更为复杂的神经网络。

全连接层

原图片尺寸为9X9，在一系列的卷积、relu、池化操作后，得到尺寸被压缩为2X2的三张特征图。

image

我们最初和最终的目的到底是什么？是对这张照片进行识别，识别它到底是X还是O呢（其实也算是对它进行一个二分类）。

全连接层要做的，就是对之前的所有操作进行一个总结，给我们一个最终的结果。

它最大的目的是对特征图进行维度上的改变，来得到每个分类类别对应的概率值。全连接层的部分就是将之前的结果平坦化之后接到最基本的神经网络了.

image.png

上图中得到一些2X2的特征图后，对其应用全连接网络，再全连接层中有一个非常重要的函数----Softmax，它是一个分类函数，输出的是每个对应类别的概率值。

image

假设对一张看起来并不标准的图进行分类。如下:

image

对于进行一系列操作后，假设得到的概率值如下所示：

image

对结果进行统计分析后可判断这张图片里的字母为X。

image

神经网络的训练与优化

前面说了那么多，其实只是一个大致的框架的设计而已，里面的参数具体是多少则是需要训练的。

针对这个识别X的例子，我们可以人为定义三个3X3的卷积核，便可实现对X的特征提取。但是在实际运用中，比如识别手写字母，几乎不可能存在标准的写法，每个人的字迹都完全不同，因此原来的那三个标准的卷积核就变得不再适用了，为了提高CNN模型的通用性（机器学习中的“泛化能力”），就需要对卷积核进行改写。经过成千上万的训练集来训练，每一次加入新的数据，都有可能对卷积核里的值造成影响。

那么具体的训练方法是什么呢？

就是赫赫有名的BP算法---BackProp反向传播算法。

在训练时，我们采用的训练数据一般都是带有标签label的图片。如果图片中的字母是X，则label=x，如果图片中的字母是A，则label=A。标签能直观地反映图片。

在最开始，训练前，我们定义一个大小为3X3的卷积核，那么里面具体的值是多少，我们都不知道，但又不能为0吧，所以就用随机初始化法来进行赋值，卷积核获取到了一个随机值，便可以开始工作。

卷积神经网络便可以开始工作了，输入一张带有标签的图片（假设图片内容是字母X）。经网络识别后判断是X的概率为0.3。本来应该是1.0的概率，现在只有0.3，问题就很明显了，存在了很大的误差。

一种简单定义误差error的计算公式为 $error=result-label$