HMAX (Hierarchical Model and X)(from https://maxlab.neuro.georgetown.edu/hmax.html)
HMAX-0001
Hierarchical models of object recognition in cortex
Maximilian Riesenhuber and Tomaso Poggio
1999, Nature
-
猕猴,虽然 V4 区表现出空间感受野的注意力控制或调节[13, 14],但是少有证据表明这该机制被用于实现平移不变性,同时少有证据表明有相似的机制被用于其他的变换(例如尺度不变性)。(p1)
-
文章提到了一些关于 视角不变性 的东西,大概是 视角不变性是限制在一定范围内的,同时,有人提出了 view-interpolation model。(p1, p2)
-
比较了两种池化机制,SUM 和 MAX。
SUM 无法实现 尺度不变性 (随着尺度的增大,SUM 值也变大)。(p2, p3)
SUM 可以在实现视角不变性或基于部分模型的目标识别的最后步骤中使用。(p3)
MAX 与神经生理的数据兼容,同时对 V1 区复杂细胞的理论研究也支持 MAX。(p3) -
文章提出的模型允许跨层连接,C1-C2。(p4)
这篇文章就简单的搭了一个框架,用像回形针一样的物体的不同视角的图片做实验,碎碎念了不少。
HMAX-0001-01.png
-
猴子,识别物体加入背景(一个物体),则 IT 区神经元的响应变为原来的 1/4,但猴子对目标的识别表现则下降很少。(p5)
<font color=gray size=72>color=gray</font>
-
Discussion 翻译
- 我们在这篇文章中描述了我们的层次性模型,对 MAX 操作进行了一些说明,对特征和不变性在模型中的作用进行了说明。目标检测的典型算法是利用滑动窗口对每个窗口进行分类。这个算法可以实现平移不变性和尺度不变性。同时,这种暴力搜索的算法不需要对图像进行分割:分割,事实上是识别的副产品。我们设计这个模型最初的启发是:MAX 操作与滑动窗口是等价的(可以实现尺度不变性和平移不变性)。序列的搜索操作是基本的且普遍的,MAX 操作可以自动的选择相关的输入子集,这比滑动窗口要好。自然地我们认为大脑皮层中类似 MAX 的操作应该重复出现。
- 人们提出 softmax [39-41] 电路来仿真皮层的 MAX 功能。
() - 在这篇文章中,我们提出 MAX-like 的操作是大脑目标识别的关键机制。文章提出的模型--包括 view-tuned 到 view-invariant 阶段--是一个纯粹的前馈网络。
反馈对于基本功能是不需要的,但是其对学习阶段或者从上到下的影响(包括注意力偏移)有基础性的作用,其可被刻画为 inhibitory softmax circuits[41]。 - 视角不变性,需要使用几个不同视角的图片进行训练,因为三维空间的旋转导致了二维空间表征的巨大变化。
- 从计算的角度来看,我们的模型可以看做是层次性的 conjunction 与 disjunction。disjunction 阶段我们使用 MAX 操作来获得不变性。
在 conjunction 阶段,增加特征的复杂性;在 disjunction 阶段,增加不变性。
在模型的最后层,C2 层,我们获得了独立特征的存在与其强度,而特征之间的相对关系并不重要。 最后层次特征字典是足够的,这些单元的活动衡量每个特征的强度,不考虑它们的精确位置,同样能够对视觉模式进行唯一的指定。 - 我们的模型属于对 Hubel 和 Wiesel 最初提出模型的很好的扩展。
-
Methods
- 160 x 160 pixels 对应着 ,即 32x 32 pixels 对应着 。
是 V4 区神经元的平均感受野大小[46]。
- 160 x 160 pixels 对应着 ,即 32x 32 pixels 对应着 。
网友评论