AI入门基础笔记- 4.7：改进卷积神经网络2：Inceptio

作者: 薛东弗斯 | 来源:发表于2023-02-10 08:21 被阅读0次

[机器学习入门] 李宏毅机器学习笔记-11（Convolutio
datawhale-task05（卷积神经网络基础；leNet；
神经网络（一）
吴恩达卷积神经网络 2-2经典网络笔记
神经网络（二）
[TensorFlow案例教程 #20180106] 卷积神经网
cnn学习资料
吴恩达深度学习笔记(72)-卷积网络的边缘检测
2020-04-15 智能信息处理导论
第五天-卷积神经网络基础,LeNet,卷积神经网络进阶

1998 Lenet5，由于算力，AI当时没有获得很大的发展

Alexnet 2012，第一个得到广泛关注。增加了网络深度，采用RELU激活函数，drop技巧

vgg16 2014，泛化性能很好，常用于目标检测，图像分类任务。发现网络不断加深，可以提升网络性能

Resnet 2015 解决纯粹提升网络深度带来的问题，为了让网络更深

Inception 2014：让网络更宽，尤其是不增加硬件成本的基础上

Resnet网络在一定程度上解决了增加网络深度带来的梯度爆炸、梯度消失的问题，可以让网络加深到50层，101层，甚至更深。而另一个角度，增加网络宽度，也是一个很好的方式。

Inception网络最核心的是Inception模块，通过很多Inception模块组成了Google公司发明的GoogleNet。后面以Net结尾，这样命名是为了向早期的Lenet-5网络进行致敬。

Inception网络与vgg网络是同一年出现的，Vgg网络是当年挑战赛分类任务的第二名，而第一名就是Inception网络。

Resnet网络最核心的是残差模块。而Inception网络最核心的是Inception模块。

传统的卷积神经网络中，每一层网络都会从前一层网络中提取信息，以便将输入数据转化为更有用的信息。其中，起到很重要作用的就是卷积层。但如何设计卷积层呢？比如卷积核的大小，步长的大小，应该怎么规划呢？

比如之前提到，Lenet-5网络的卷积核都是5*5大小； Alexnet卷积核大小则是11*11，3*3以及5*5； Vgg网络卷积核通常是1*1，3*3大小；Resenet卷积核大小是1*1，3*3。

不同的研究者也在不断的摸索使用不同大小的卷积核进行实践，比如1*1、3*3、5*5，有如此多的选择也会带来麻烦，到底应该选择哪一种卷积呢？而且在网络的不同层，选择哪种卷积核可以提供最有用的信息呢？

既然是训练神经网络，可不可以通过训练，让模型自己去选择哪种卷积核，自己去调整呢？

比如输入矩阵的尺寸是28*28*192，为了便于观察，横着通道的尺寸是192，在设计结构时，研究者先采用了32个 1*1*192的same卷积，得到28*28*32的输出结果。

然后再使用64个3*3*192的same卷积，同样可以得到28*28*64的矩阵，并将得到的矩阵连接到前面的结果上

再使用了1*1，3*3的卷积之后，作者又使用了30个5*5*192的same卷积，并将得到的28*28*30的矩阵连接到后面

同样，作者研究中发现max-pooling方式很有效，因此最下面，将3*3的池化层也连接起来。不过要注意，这里输出的池化层，因为需要与前面的输出矩阵连接起来，所以也需要是28*28大小，所以这里池化时，与same卷积一样，会采用same池化的方式，对输入矩阵进行padding，填充之后再进行池化

设计这样的模块，完美的解决了上面的选择困难症，再同一层中，将1*1，3*3，5*5以及池化操作都加上，最好将各个输出矩阵连接起来。这样的好处是让网络自己去抉择，如果不喜欢哪个过滤器，训练时就会调整该过滤器相关的参数，能消除或减弱该过滤器的影响力

但是这样的设计也会带来一个很大的问题，因为只是简单粗暴的堆叠在一起，这样造成网络计算量会很大。

比如，我们将其中的3*3卷积提取出来，因为输出的矩阵是28*28*64，通过多维卷积操作可知，输出矩阵每个位置上的信息都是输入矩阵和卷积核的计算结果，如果输出矩阵是28*28*1，我们需要经过28*28，再乘3*3*192 等于 135472的计算量。但是输出的矩阵是28*28*64，因此还需要*64，共86704128.

这只是一种卷积核，网络中还有1*1，5*5等卷积核，而且这仅仅是一个inception模块，如果是多个模块，计算量将很惊人。是否有办法降低计算量呢？