美文网首页
2022-08-20-简单明了的卷积网络

2022-08-20-简单明了的卷积网络

作者: 破阵子沙场秋点兵 | 来源:发表于2022-08-20 11:01 被阅读0次

本文来自知乎自然场景文本检测识别 - 综述 - Part I

卷积神经网络

我们知道,图像是由一个个的像素点组成的,反映在数据结构上,每个像素点对应于一个3维向量,分别表示该像素点红绿蓝三种颜色的亮度。通常我们也将颜色的维度称为通道(Channel)。因此,整个图像对应于一个H x W x C的三维矩阵,H和W分别为图像的高度和宽度,而C表示通道的个数或矩阵的深度(C=3)。


图像与其对应的三维矩阵

图像矩阵中每个元素的值能反映颜色和亮度,但其不能反映线条和形状的结构信息,更不能反映整个图片传达的语义,而这些信息是检测图像内容的关键。图像卷积操作便是解决这一问题的利器,所谓卷积,可以理解为将一个固定长宽而与图像深度相同的矩阵滑块在图像矩阵中平移滑动,每经过一处便将滑块与图像做内积,即滑块上每一点的值与图像对应位置的值相乘后加总,每一处的内积值依次排列形成一个新的矩阵。这一滑块又称为卷积核。


图像卷积操作,为了方便显示,图像和卷积核都只使用了一个通道
通过卷积操作,我们在每一个位置整合了周围像素点的值,因而可以生成结构信息。通常我们会使用多个滑块,由于不同滑块矩阵的参数值分布不同,在与图像做内积时,会对各种图像结构产生不同的内积值。例如有些滑块对图像中的竖直条纹响应大,而有些滑块对拐角形状响应大,因此不同的滑块能检测不同的局域结构。不同滑块滑动形成的矩阵作为新的通道维度堆叠起来,形成新的三维矩阵,每个新像素点比原图像中的像素点具有更丰富的局域结构信息。
特定卷积核对特定图像特征响应,图中的卷积核对与周围反差大的像素点响应

通过多层这样的卷积操作,我们可以不断在前一层的卷积特征之上进一步生成更深层的特征,如从线条到形状到轮廓到物体等等。浅层的卷积特征往往更偏向于具体的结构特征,而深层的卷积特征往往具有抽象的语义特征,可以直接用于图像的分类,如将图像分类为人物、动物、汽车和房子等等。这样的网络结构就是卷积神经网络。


多层卷积神经网络

相关文章

网友评论

      本文标题:2022-08-20-简单明了的卷积网络

      本文链接:https://www.haomeiwen.com/subject/vswpgrtx.html