文章名称
【CIKM-2021】【ShenzhenUniversity/Tencent】Deep Self-Adaptive Hashing for Image Retrieval
核心要点
文章旨在解决现有深度无监督散列方法中预先计算的相似度矩阵不可改变,不能在哈希学习过程中进一步探索底层语义,以及容易受到低信息量的成对关系干扰的问题。作者提出了一种深度自适应哈希(DSAH),包括适应邻居发现(AND)和成对信息内容(PIC)两部分。首先,利用AND建立相似度矩阵的临近关系,并随着哈希的学习动态调整。同时,利用PIC计算数据成对关系的权重,从高信息量的成对关系中高效的学习信息。
上一节介绍了AND的两个步骤从初始化和更新,以及如果构造相似度。本节继续介绍IC和学习目标。
方法细节
问题引入
如前所述。作者提出了一种深度自适应哈希(DSAH)模型,DSAH的整体框架如下图所示。该模型包括AND和PIC,2个重要的模块来自适应地捕获语义信息,并且介绍了AND的具体流程。虽然AND提供了一种从相似度矩阵中学习哈希码的方案,它忽略了不同图像对之间的重要性差异。为了解决这个问题,作者提出了PIC,它为每个图像对分配一个自适应权重。如果一个数据对更重要,它将获得更大的权重,并为哈希函数学习做出更多贡献。本节重点介绍这个模块。
DSAH framework具体做法
Pairwise Information Content
Pairwise Information Content,PIC,的主要目的是区分图像对的重要性,进一步提取语义特征。在计算损失时,PIC为每个图像对分配一个自适应权重,基于该权重得到如下图所示的加权MSE损失函数。
weighted loss其中,是数据对的权重,表示该数据对的重要性。根据信息论[33],假设一个事件发生的概率为,其包含的信息量被定义为负对数似然,公式如下图所示。众所周知,概率为1的事件信息量为0,其他就不啰嗦了。
information theory给定一个数据对,我们定义事件表示给定查询图像作为查询目标之后,图像被作为top-1检索结果返回,即是图像是图像检索的最优匹配。其概率记作。 基于此,作者将图像对的权重定义为该事件发生的信息量,其公式如下图所示,
pairwise weight如果图像是查询图像的top-1检索结果,那么和应该是最相似的。 因此,概率可以表示图像和图像之间相似性程度的度量,的计算公式如下图所示,其中是softmax的温度参数。
probability of pij不难推断出,越小,则对应的信息量越大,图像对的权重也越大。符合作者提出的,不相关的图像对,对模型的影响应该越大(包含更多的信息)。
Objective Function
为了保证学习哈希码的质量,作者引入了损失 ,来最小化变量 和二进制码 之间的量化误差。模型的总损失函数如下图所示。
Objective FunctionOptimization
由于DSAH需要优化两部分的参数,因此作者采用交替优化的方式,直到收敛,
- 固定相似度矩阵,更新哈希学习网络的参数。
- 固定哈希学习网络的参数,更新相似度矩阵。
具体算法步骤参见伪代码部分。
代码实现
文章的伪代码如下图所示。
pseudo code心得体会
信息论
作者巧妙地定义的top-1 rank事件,并利用该时间信息量的大小定义了图像对的权重。同时,该事件的定义符合作者表示的,不相关图像应该具有更大贡献度,更能说明问题的假设。个人觉得,如果是利用information theory的话,也许利用互信息更合理,比如基于MI的对比?不过也许没有这里直接利用相似度计算概率来的直接。
文章引用
[33] Claude E Shannon. 1948. A mathematical theory of communication. The Bell system technical journal 27, 3 (1948), 379–423.
网友评论