美文网首页
基于部分的模型

基于部分的模型

作者: yuerxiaoshui | 来源:发表于2020-07-02 09:36 被阅读0次

2002 PAMI Malik组

Shape Matching and Object Recognition Using Shape Contexts

Shape Context在表示形状时,首先会在形状的轮廓上采样N个点;而对每一个点来说,会利用其周围点的信息,为其提取一个向量,来表示这个点。如此一来,每一个形状便由N个向量来表示了;向量之间是可以衡量距离的,在确定这种距离的衡量方式后,便可以利用匈牙利(Hungarian)算法找出两个形状之间,N对N的最佳匹配关系了。当然文章的作者又进一步提出可以使用TPS(Thin Plate Spline)变换对待匹配的形状进行不断的形变,以取得更佳的匹配结果。




2007 Trends in cognition science

The proactive brain: using analogies and associations to generate predictions

据博客:认知学的研究表明,大脑对于新事物的识别一个看"它像什么"的问题,而不是直接分类判断"它是什么"的问题。我们是通过和它最像的物体的信息来得知它是什么。英语中的recognition是re- cognition即再认知,再字即体现了参考先例的含义。

参考先例,何尝不是一种经验

我认为这是不言自明的,但是我没有看到原文只看了摘要,故没有更多说的。此文可做引用。




2009 CVPR Malik组

Recognition using Regions

使用区域来做分割与检测。效果不怎么样,大概就是把各个部分作为一个区域词袋,然后类似投票这种进行检测。




2010 DMP Felzenszwalb组

Felzenszwalb, R.B. Girshick, D. McAllester, D. Ramanan

2005: Pictorial Structures for Object Recognition

2008: A discriminatively trained multiscale, deformable part model

2010: Cascade object detection with deformable part models

2010: Object Detection with Discriminatively Trained Part Based Models

值得注意的是,在2010的文章中其提出了视觉语法(Visual Grammars)这个概念。我的理解是,类比语言的单词与语句,有了部件,使用视觉语法将这些部件组合成一个整体。

提特征用的是HOG,其实并不好。总的来说,形变部件模型思想可以,实际操作,效果什么的都不怎么行。

人的身体部位位置不会给出,也就是说,part location的位置是不知道的,所以是latent。我们必须通过机器学习算法去找到身体部件位置的最佳值




2011 ICCV

Ensemble of Exemplar-SVMs for Object Detection and Beyond

这篇文章令人眼前一亮的是,把每张图片看做是一类。

重要的是认识到了当然的数据集标注某一 category 下面其实图片与图片之间的差别是很大的,我们应该将该 category 看作多个类才对。




2013 PAMI

Articulated Human Detection with Flexible Mixtures of Parts

基于Pictorial Structures,即该结构包含不同部件之间的关系(比如头旁边是脖子),也包含不同部件之间的相对位置的概率(不同行人摆手的位置和手肘分布不同)

增加人体部位的分割程度。将人体分割成12,24,51。分成24个不同部位的时候,效率最高。




2013 Quarterly of Applied Mathematics 朱松纯组

UNSUPERVISED LEARNING OF COMPOSITIONAL SPARSE CODE FOR NATURAL IMAGE REPRESENTATION

使用稀疏编码的思想,从一堆图片里面学习基函数(小波),然后利用这些基函数合成目标模板(部分与整体)。一个新的图片,即使用学习到的基函数生成目标的形状。

2015 PAMI 朱松纯组

Learning Hierarchical Space Tiling for Scene Modeling, Parsing and Attribute Tagging

提出了 Hierarchical Space Tiling (HST,层次性水平空间平铺),即将图像划分区域,且是层次性的区域,可以与选择性搜索的空间聚合相比较。在此基础上进行了场景分类,属性识别,属性定位与像素级场景标注(分割)。




2016 DeePM Yuille组

DeePM: A Deep Part-Based Model for Object Detection and Semantic Part Localization

DeePM-arch


2017 PAMI 王晓刚组

DeepID-Net: Object Detection with Deformable Part Based Convolutional Neural Networks

将形变部分模型有深度学习相结合,看博客觉得价值不大,但可做引用。




2018 Pattern Recognition

Robust occlusion-aware part-based visual tracking with object scale adaptation

这篇文章是做视频跟踪的,加了个部分模型来跟踪被遮挡的部分。

OAPT-algo OAPT-flow-chart


2018 ECCV 孙剑组

Unified Perceptual Parsing for Scene Understanding

这篇文章所谓的理解是使用了多个分支,每个分支分别来做相应的事情。这样子的话,既合理也不合理,合理在于肯定是多路径处理的,不合理在于信息的分野应该在很早之前就出现了,不必等到最后。

UPerNet


2020 Journal of the ACM Felzenszwalb组

Scene Grammar, Factor Graphs, and Belief Propagation

提出了一个场景语法,以人脸为例,将人脸分为左眼,右眼,鼻子,嘴巴四个部分,左右眼构成眼,眼,鼻子,嘴巴构成人脸。利用这个语法可以生成人脸,可以检测人脸并推断出哪里被遮挡了。




2020 CVPR

Say as you wish: fine-grained control of image caption generation with abstract scene graphs

这篇文章是由阿德莱德大学吴琦研究小组的Chen等人2020年的工作,发表在CVPR上。主要解决了图像描述交互性差、多样性低的问题。

一般的自然语言生成任务的数据主要是格式化与非格式化的数据,包括文本、表格等,图像描述是一类输入数据为图像的自然语言生成任务,相对一般的任务,有其独特的方面。从深度学习出现以后,经典的图像描述方法是以Im2Text为代表的,即使用卷积神经网络对图像特征进行提取得到特征向量,然后再使用循环神经网络将特征向量转化为文本描述。当前的模型可以生成较为流利的和视觉相关的图像描述,但是用户难以对生成的描述进行控制,同时生成的信息单调缺乏多样性。为了解决图像描述的交互性问题与生成文本的多样性问题,文章提出了一种名为ASG(Abstract Scene Graph)的图,通过使用该图,用户可以控制所希望表达的物体、属性和关系,这样用户就不仅能够控制细粒度的语义表达,还可以生成具有多样性的图像描述。

这篇文章的主要贡献有三点。一是提出了ASG图用于细粒度的控制图像描述的生成,二是提出的模型能够自动的识别ASG图中的节点并根据图所指示的语义信息和顺序生成所需的描述,最后文章还构建了一个具有ASG图标注的数据集。作者基于VisualGenome和MSCOCO图像描述数据集的基础上构建了具有ASG标签的新数据集,然后在这两个数据集上进行了实验,实验结果表明,由文章提出的方法所生成的图像描述可以根据用户的需求生成相应的描述,也可以通过多样化的ASG生成更具有多样性的描述。




相关文章

网友评论

      本文标题:基于部分的模型

      本文链接:https://www.haomeiwen.com/subject/szndqktx.html