美文网首页深度学习
论文笔记:Look Closer to See Better:

论文笔记:Look Closer to See Better:

作者: 涂山容容 | 来源:发表于2018-01-09 15:17 被阅读920次

CVPR 2017 oral, 微软亚洲研究院梅涛工作,做细粒度分类。
就是网络的叠加,从coarse to fine,三个scale网络的叠加,前两个scale多了APN去get感兴趣区域,输入到后一个scale里面。


APN
attention proposal network:相较于RPN(object detection),用的是弱监督的方式得到候选框。
实现方式
在conv5之后,重接了两个全连接,输出三个值tx,ty,tl tx,ty为坐标,tl为提取的候选框边长的一半(那个框是个正方形)。

全连接后接的都是tanh
怎样把crop的操作变成可以反向传播呢?用boxcar functions(方脉冲函数)去近似

crop之后,还有一个adaptively zooming 的过程

损失函数
有两个部分,scale的分类loss,scale之间的 rank loss(为了保证finer scale的置信程度比caorser的高)

其中第一项就是普通的softmax loss,第二项的rank loss 计算如下:

Multi-scale Joint Representation
多尺度特征的一个融合: 把三个scale 的特征concat起来,然后再分类得到结果。

训练细节
用imagenet初始化3个scale的classification 网络,2.找出响应最大的区域,预训练apn. 3.交替训练 classification 和APN(固定一个训练另一个).

相关文章

网友评论

    本文标题:论文笔记:Look Closer to See Better:

    本文链接:https://www.haomeiwen.com/subject/gcuwnxtx.html