语义鸿沟:eg一张1024x768的图像,拥有RGB三个分量,因此该图像拥有1024x768x3个像素,每个像素是一个0(黑)到255(白)之间的整数,这种现象成为语义鸿沟。
除了语义鸿沟,图像识别的其他挑战:
视觉变化(一个相同目标对摄像机可有不同朝向)、尺度变化(占据图像的大小、目标在真是世界的大小也会变化)、形变(目标非刚体情况时会形变)、遮挡(可能被遮挡)、光照改变(光照会对像素值的大小产生巨大变化)、背景融合(目标可能和背景混为一体,使目标难以被识别)、类内变化(相同类的不同个体之间可能会变的完全不同)。
数据驱动过程:提供给计算机每个类别的许多实例,它们组成了训练集,利用学习算法从训练集中产生分类器或模型,在面对新情况时,模型会提供相应的判断,这个过程称为数据驱动过程。
线性分类器
1. 训练数据
给定m张图像组成的训练集,每个图像的标记是K个不同类中的一个,
其中用于对训练实例进行索引,
是第
张图像展成列向量后的结果,
是每个向量的维数,若图像大小为1024x768x3,则
=1024x768x32=359296,
是
对应的标记。
2. 假设函数
给定训练集后,将从训练集中学到一个映射称为假设(hypothesis),使得
给出
属于某个类的分数,进而对
做预测。
2.1 线性分类模型的假设函数
线性分类模型中,假设函数采用一种最简单线性映射,
是函数的参数,
常称为权值(weight),
常称为偏置向量(bias vector)。
目标是设置使得计算的分数匹配真实值,这个过程称作学习参数
;学习过程结束后可丢弃训练集,通过参数
做预测。
2.1.1 对假设函数的理解
可看作有
个分类器进行计算:
其中用于对
中各元素的索引,
计算的是
属于第
个类的分数/概率。
另一种理解方式是将看作一种相似度的度量,每个
代表了每个类的原型,预测过程是将
与各个类的原型比较,找到最相似的。
2.1.2 Softmax分类器的假设函数
Softmax分类器是一种线性分类器,它对于计算得到的各类的分数有概率上的理解:
其中称为softmax函数。
2.2 损失函数
给定假设函数后,计算每个数据
对各个类的分数,需要通过一个能够比较该分数与真实值
相符程度的度量来判断当前参数的好坏。损失函数(loss function)计算的是不相符的程度,即损失函数值低时当前参数
表现好。
2.2.1 交叉熵损失
通过最大似然估计(maximum likehood estimate)可得到softmax分类器的损失函数:
假设数据间独立分布,且,其中
称为交叉熵损失(hinge loss),后文将
记为
。
网友评论