1. 前言
作者提出了Bilinear Convolutional Neural Networks(B-CNNs)用于精细化的视觉识别问题,这个网络将一个图片表示为两个CNN特征的outer product。
通常情况下,在精细化的分类问题中,有两种方法:一是part-based model,通过定位关键部位并提取特征。二是holistic models,这种方式在整张图片上构造特征。
这篇论文主要基于这样一个思想:很多广泛使用的texture representation可以被表示为两个设计合理的特征的outer product。
2. B-CNNs for Image Classification
2.1 The B-CNN architecture

一个B-CNN包含了四个部分:

假设特征的大小为:

因为pooling是求和,和位置,顺序无关,因此是orderless的特征表示。
作者还在上进行了归一化:
分类作者使用了SVM。

网友评论