深度学习网络为什么要有池化操作？

作者: 张兴园 | 来源:发表于2019-08-16 10:13 被阅读0次

从上面左图可以看到，使用了pool操作其实就是降低图片的空间尺寸。

你可能会有两个疑问：

为什么可以降低图片空间尺寸呢？

为什么要降低图片的空间尺寸呢？

这两个问题，其实是触及了池化技术的本质：在尽可能保留图片空间信息的前提下，降低图片的尺寸，增大卷积核感受野，提取高层特征，同时减少网络参数量，预防过拟合。

先来探讨第一个问题。

1.为什么可以降低图片空间尺寸？

这个问题很简单，等比例缩小图片，图片的主体内容丢失不多，具有平移，旋转，尺度的不变性，简单来说就是图片的主体内容依旧保存着原来大部分的空间信息。

2.为什么要降低图片的尺寸？

我们知道在卷积神经网络中，如果特征抽取后最终输出特征图尺寸太大，将会导致输出结果的特征太多，计算量剧增的同时，将其输入到一个分类器（通常是全连接层Full Connected layer），很容易就会导致过拟合。就像机器学习一样，特征过多的话，我们可能会考虑降维（如PCA）来减少特征，增强拟合能力。

简单来说：降低尺寸，有助于减少计算量以及特征数量，保留主要特征，增大卷积核感受野，防止过拟合。

但我们在做卷积的时候，让conv 层的步长stride = 2同样也可以起到降低尺寸的目的啊，为什么需要pooling 层来降低尺寸，这就回到了上文的：池化层不需要保留参数。它采用一个固定的函数进行像素运算，如max pooling filter中采用了max函数，是不需要保留参数的，所以减少了网络的参数量。

3.增大感受野是怎么回事？

我们知道在实际训练中，我们的卷积核一般就是比较小的，如3 * 3，这些卷积核本质就是在特征图上进行滤波窗口计算并滑动。如果要保持卷积核大小不变，同时增大卷积核覆盖区域（感受野增大，便于提取高层语义），那么就可以对图片尺寸进行下采样。

当然增大感受野也有其他方式，如膨胀卷积运算，在保证特征图尺寸不变的情况下，可以增大卷积核的感受野。

不过值得一提的是：在像素信息较为敏感的一些视觉任务中（如分割，检测），一般是较少使用pooling操作来下采样的，通常使用插值（如双线性插值等）或者stride=2的卷积层来进行下采样，尽可能的保留像素信息，这也是pooling操作的缺点，不过使用pooling也有其优点，就有无参数的好处。

如果你追求更加理论和硬核的pooling解释的话，我推荐你去看一下LeCun在10年ICML的论文：A Theoretical Analysis of Feature Pooling in Visual Recognition。

---------------------

原文链接：https://blog.csdn.net/CVSvsvsvsvs/article/details/90477062

https://blog.csdn.net/CVSvsvsvsvs/article/details/90477062

网友评论

深度学习

本文标题：深度学习网络为什么要有池化操作？

本文链接：https://www.haomeiwen.com/subject/jfqajctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

深度学习网络为什么要有池化操作？

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

深度学习