美文网首页
Person Re-identification via Rec

Person Re-identification via Rec

作者: __Vision | 来源:发表于2017-03-24 17:44 被阅读0次

ECCV 2016 person re-identification相关 第四篇

这篇文章大致的idea是把简单的比如color LBP之类的特征通过LSTM网络聚合成highly discriminative representation

优势:

  • First, it allows discriminative information of frame-wise data to propagate along the temporal direction, and discriminative information could be accumulated from the first LSTM node to the deepest one, thus yielding a highly discriminative sequence level human representation.
  • Second, during feature propagation, this framework can prevent non-informative information from reaching the deep nodes, therefore it is robust to noisy features
  • Third, the proposed fusion network is simple yet efficient, which is able to deal with sequences with variable length.

传统的方法,其中一个方面就是度量学习,但是这篇文章通过融合简单特征,生成深层特征,因此,简单的度量比如cos就能产生好的效果。这里我也认为,reID的工作更多的是应该放在如何提取high discriminative 的特征上去。

传统做reID,一般就是先用cnn或者直接提取single的底层特征,然后扔到度量学习层里面训练,然后用得到的模型和度量来做预测。但是这种做法在提取特征的时候没有考虑时间信息,只考虑了空间特征,所以不适合用视频的形式作为输入(multi shot)

本文在的特征采取的是手工特征(color、LBP),因为cnn需要大量的数据作为训练,而现有的训练数据集都比较小,容易过拟合。

主要思想

特征提取

LSTM的输入是手工特征,图片大小resize到128x64 kernal大小是16x8 重叠是8和4 所以对于一个frame出来15*15个结果 LBP有256维,加上HSV和Lab各三维,一共262维, 每个time stamp(本文中一共是10个timestamp)是262x225维的输入 每个time stamp的输出是512维的向量,根据下面的公式算出每个node的信息(i代表输入门 o代表输出门 f代表遗忘门):


σ是sigmoid函数,·代表element-wise multiplication

采用N-way softmax:


其中:

loss函数是:

此外,由于每个人的sequence的长度可能不一样,因此作者随机抽取固定长度的帧作为输入 这篇文章里取L = 10

timestamp也是10,每个timestamp输出512维的特征,所以整个输出是5120维的。

特征度量

本文中作者采用了余弦距离作为特征度量,也尝试用RankSVM。不过余弦距离就效果不错了


Si和Sj就是5120维的输出

实验结果

缺点分析

仅仅采用color和LBP作为特征还是存在局限性的,如果两个人衣服什么的穿的都很像,并且存在遮挡 光线变化 那么就会容易出现错误

改进

融入更多的特征,或者采用更深的LSTM网络会更好

相关文章

网友评论

      本文标题:Person Re-identification via Rec

      本文链接:https://www.haomeiwen.com/subject/hdxfottx.html