Guo Y, Xu M, Li J, et al. HCSC: Hierarchical Contrastive Selective Coding[J]. arXiv preprint arXiv:2202.00455, 2022.
emmm...摆烂阅读
动机分析
图片数据中通常包含多种语义层级,如对于狗这个类别中,又可以根据细粒度的特征进行子类别的划分。由此,本文使用树形的层级原型来刻画包含在其中的层级语义结构,如下所示:对于得到的树形结构而言,每一层则可以代表不同的层级语义空间。本文后续的工作,是利用这种层级语义信息对对比学习过程中负例的选择进行优化,从而得到更具有辨别性的特征表示。
问题形式化
目标:为给定的无标签数据学习一个低维的特征向量表示。
除了数据表示外,还需要维持一个层级原型的表示集合。这个看似符号很多的集合,就是本文的关键。首先,代表需要捕获的层级信息对应的层数,例如,上图中是一个包含三层的树形结构,即;其次,则代表中第层中包含的类簇的数量,例如上图中,画出的第一层包含3个类别,即。为了保证后续运算的便捷性,作者这里约束都是-dim向量。通过层级的k-means算法,可以得到多层级的语义结构表示。具体算法如下:
同时作者还设计了一个较为新颖的距离函数,传统的计算,仅考虑欧式距离或是余弦相似性。本文使用的距离函数融合了二者的特性(cluster-specific dot product):
其中,由分配给类簇的样本的表示组成,是一个平滑项,用于平衡不同类簇的。后续的对比学习负例的选择,则是利用了层级语义信息,利用相似性信息构造了一个可被选择的概率。并引入伯努利采样(一个样本被选中为负样本,或者不被选中),对负例集合进行构造。之后就是对比损失的计算。这部分有大佬已经写过了,传送门,这里不再赘述。
笔者比较关注的点的设置,很遗憾论文中只是说低维的,只能去代码中查看;另外关于和的设置。作者也给出了相关实验:
多层级的k-means聚类感觉很新颖。
网友评论