https://arxiv.org/abs/1703.06211
msra一篇讨论新的卷积结构的文章,主要思路是通过调整卷积的感受野,使卷积过程中的感受野更专注于目标区域,也就是提升了目标区域像素在模型中的贡献比例,感觉是应该很work的,找时间试一下,下面主要是摘录一些文章里的东西。
文章里首先提出了cv中目标很棘手的一个问题:
A key challenge in visual recognition is how to accommodate geometric variations or model geometric transformations in object scale, pose, viewpoint, and part deformation.
并简述了目前的两种解决思路:增强现有训练样本和使用transformation-invariant features and algorithms。当然这两种方法都是不好用的,原因就是增强的方法是固定的,transformation-invariant features也不可能对所有复杂的transform都work。作者认为CNN不好处理large,unknown transformation的主要原因来自于fixed geometric structures of CNN modules,所以就要解决这个问题喽。进一步的,作者将这一问题归于CNN特征提取过程中的感受野问题,即感受野只取决于CNN结构和点的位置,而我们期待的是adaptive determination of scales or receptive field sizes。所以这里作者引入了一个offset层来实现这个adaptive。
这里放一个感受野的对比图,效果还是很直观的
感受野对比具体计算offset的layer的设计以及整个网络的改动这里就不写了,论文里写的很清楚,附录里也给了bp的推导,国人写的论文就是好读啊,不会动不动秀个什么【文】的词汇出来。
作者还用了比较大的篇幅来探讨deformable conv的意义以及和其他方法的区别,我觉得这一部分的讨论是很有意义的。作者的观点是改变了spatial sampling location,所以增强了localization capability,尤其是对于non-rigid objects,但这里我没有理解为什么对于non-rigid特别有效。与stn相比,dc在特征提取位置变化上采用了local而不是global的方法,这样对于dense tasks更为有效。从感受野的角度,dc adaptive的调整感受野(但是调整完以后的effective RF是什么样儿呢?)。而与其他的不可变特征相比,dc的不可变性来自于学习的过程,来自于变化提取特征的位置,而不是依赖于prior的hand-craft。
总的来说感觉是很好的思路,另辟蹊径的来解决问题。从感受野的角度来思考和解决问题才是王道吧。
最后是自己的读后感:有时候会感觉卷积是个很不讲道理的过程,一定要卷特定的大小,特定的尺寸。dc用偏移的方法来让卷积过程去关注那些更有意义的点,但是比如一个小的目标,一个3*3卷积下去,右下角的这个部分就应该是空白,那对于这个目标,这个地方的weights是0的话就是最好的,这样的话如果weight不是0的话,偏移到任何地方去都会对最后的结果产生影响。那是不是也可以有一种机制来扔掉卷积过程中的一些部分,就类似于一个卷积过程中的dropout。还是说在训练的过程中已经可以把这些位置置0(应该是不可以吧)。
或者说,卷积的过程中,尝试ingore掉3*3中的一个或多个weight,分别inference,对比不同的loss是否可行呢。
网友评论