1. 摘要点评
- 弱监督的方式进行图像对比。只需要提供image-level的标注数据,但是网络能够实现pixel-level的预测结果。这点就非常吸引人哈。
- 一句话描述: A deep neural network with DAG topology.
- 训练时候 pixel-level annotation怎么来?这是个核心问题。
2.网络结构
TIM截图20190619094719.png- P4后分为两支,下面一支是对传统的分类网络,给出图像标签进行训练;上面一支,显然是分割网络,但是没有标签。 The segmentation branch generates a down-sampled coarse segmentation map (of size sz ×sz×c) for each change category。理解为每个像素点都是softmax。如果网络训练好了,上下两支协同工作即可。最右边的这支呢?干嘛的?什么是条件随机场(CRF)?什么是mean- field inference ? 这应该就是这个文章的关键部分。稍后马上呈现出我的理解。
- 标签自动生成。在训练阶段,网络前向运行,下支给出图像类别预测,与图像标签对比产生Loss。上支网络给出Segementation Maps后,继续前向运行,产生Pixel-level annotations。好了,用这个像素级的标签与Segmentation Maps 之间就可以产生Loss了。逻辑还是蛮简单的。
- CRF算法,目的是弱监督产生pixel -level label。Segmentation Maps 一点也不光滑,能不能让他光滑一些?条件随机场CRF说“我可以”。通过引入势函数(参考Total Variation 约束). blabla...讲不下去...
条件随机场参考https://blog.csdn.net/applenob/article/details/51354088
,不就是让所有的P最大嘛。
ok,这里怎么操作的呢?1.如果图像是正常,全部标签给0就完事了;2.如果图像有变化,作者就对segmentation map采用了guidance filter操作,使用图像差来办。把这个操作封装成CRF。 - Mean field inference 算法。CRF不是产生了连续的,比较好的标签了吗?还有什么问题,需要mean field inference算法?这是干嘛呢?其实我也还不大懂。
3. 细节突破
- 需要搞清楚CRF,这个应该不难,找个机会下个代码测试下,因为我遇到好几个问题都用到了CRF。
- 等我搞清楚了所有细节,回头继续写找个文章。
参考文章
- 自己搜吧,名字见题目
网友评论