title: 模式识别 第七章 特征提取和选择
date: 2017-03-26 18:47:52
categories: ML/卢晓春 模式识别引论
mathjax: true
tags: [Machine Learning]
第七章 特征提取和选择
特征形成
特征通常有物理的、结构的、数学的三种类型。物理的、结构的比较直观,但对于计算机而言,数学的更方便处理。
因此,对于一个具体问题,往往是,
- 物理量的获取与转换:对从传感器中得到的信号,可以称之为原始信息
- 描述事物方法的选择与设计:在得到了原始信息之后,要对它进一步加工,以获取对分类最有效的信息。
- 特征空间的优化 :已有了一个初始的特征空间后,如何对它进行改造与优化的问题。一般说来要对初始的特征空间进行优化是为了降维。
- 特征形成:根据被识别的对象产生出一组基本特征,它可以是由计算得到的,也可以是用仪表或传感器测量出来的,这样产生出来的特征称为原始特征。在大多数情况下,不能直接对原始特征进行分类器设计。
- 特征选择:从一组特征中挑选出一些最有效的特征以达到降低特征空间维数的目的,这个过程叫特征选择。
- 特征抽取:原始特征的数量可能很大,或者样本处于一个高维空间中,通过映射(或变换)的方法可以用低维空间来表示样本,这个过程叫特征抽取。映射后的特征叫二次特征,它们是原始特征的某种组合(通常是线性组合)。所谓特征抽取在广义上就是指一种变换。
注:特征抽取是通过变换的方法组合原始高维特征,获得一组低维的新特征,而特征选择是根据专家的经验知识或根据某种评价准则来挑选出那些对分类最有影响力的特征,并未形成新的特征。
例子:
需要处理:
比如车牌识别,数据扫描进来后,怎么来表示数字呢?
- 可以直接图像,
- 可以是数字自上到下离y轴的距离,10个数字这类信息肯定是不一样且小于上述图像表示的
- 可以是田字格中,数字和横向线、竖向线的交点数量。
类别可分离性判据
对特征空间优化是一种计算过程:
* 找到一种准则(或称判据),通常用一种式子表示
* 计算出一种优化方法,使得这种计算准则达到一个极值。
基于距离的可分性判据:使类间距离尽可能大同时又保持类内距离较小
类的均值向量:
点到点集的距离:
Paste_Image.png
注:此处以均值向量为衡量,在K-means算法中提过也可以用最近、最远等为判断
其他基于距离的可分离性判据:
- 类内离散度矩阵
- 两类之间的距离
- 各类模式之间的总的均方距离
- 多类情况下总的类内、类间及总体离差矩阵
基于概率分布的可分性判据
Paste_Image.png满足下述条件的任何函数都可以用作基于类概率密度的可分性判据。
- 非负性
- 当两类概率密度函数完全不重叠时,判据取最大值
-
当两类概率密度函数完全相同时,判据取最小值0
Paste_Image.png
Paste_Image.png
特征抽取:低维新特征
原始特征的数量可能很大,或者样本处于一个高维空间中,通过映射(或变换)的方法可以用低维空间来表示样本,这个过程叫特征抽取。映射后的特征叫二次特征,它们是原始特征的某种组合(通常是线性组合)。所谓特征抽取在广义上就是指一种变换。
基于可分离性判据的特征抽取方法
Paste_Image.png基于离散K-L变换的特征抽取方法 即 主成分分析
K-L变换是一种正交变换,即将一个向量X,在某一种坐标系统中的描述,转换成用另一种基向量组成的坐标系统表示。
要使得转换坐标系后的向量和原向量的均方误差为最小:
\zeta = E[(X-\hat X)^T(X-\hat X)]
优点:
- 可以使变换后所生成的新分量正交或不相关
- K-L变换后的协方差矩阵为对角矩阵
- 在用较少的新分量来表示原特征向量时,可以达到均方误差最小
例子:
降维与数据压缩是紧密联系在一起的。如原训练样本集的数量为V,而现采用30个基(每个基是一幅图象),再加上每幅图象的描述参数,数据量是大大降低。尤其是图象数很大时,压缩量是十分明显的。
利用K-L变换进行人脸图象识别是一个著名的方法。
- 其原理十分简单,首先搜集要识别的人的人脸图象,建立人脸图象库,
- 然后利用K-L变换确定相应的人脸基图象,
- 再反过来用这些基图象对人脸图象库中的有人脸图象进行K-L变换,从而得到每幅图象的参数向量并将每幅图的参数向量存起来。
- 在识别时,先对一张所输入的脸图象进行必要的规范化,再进行K-L变换分析,得到其参数向量。
- 将这个参数向量与库中每幅图的参数向量进行比较,找到最相似的参数向量,也就等于找到最相似的人脸,从而认为所输入的人脸图象就是库内该人的一张人脸, 完成了识别过程
注:一个非周期性随机过程不能用具有互不相关的随机傅立叶系数的傅立叶级数表示,但是可以用具有互不相关系数的正交函数的级数展开。K-L展开式就是这样一种展开方法。
1 离散有限K-L展开
Paste_Image.png2 基于K-L变换的数据压缩
问题:如果从n个特征向量中选取m个组成新的变换矩阵,m<n,那么怎么选取m个特征向量可以在最小均方误差准则下效果最优?
方法:选择m个最大的特征值对应的特征向量组成新的变换矩阵,可以让最小均方误差最小。因此,K-L变换又称为主成分分析。
算法:
- 平移坐标系,将模式的总体均值向量作为新坐标系的原点
- 求随机向量X的自相关矩阵R=E(XX^T)
- 求自相关矩阵的n个特征值及其对应的特征向量
- 将特征值从大到小排序,取前m个大的特征值所对应的特征向量构成新的变换矩阵
- 将n维向量变换为m维新向量
例子:
Paste_Image.png
特征选择:专家选择,删除部分特征
从一组特征中挑选出一些最有效的特征以达到降低特征空间维数的目的,这个过程叫特征选择。因此有两个关键问题:选择的标准、搜索的算法
标准:
Paste_Image.png
搜索:
Paste_Image.png
最优搜索算法
最优搜索算法:至今能得到最优解的唯一快速算法是“分支定界”算法。属于自上而下的算法,具有回溯功能。
算法核心是通过合理组合搜索过程,避免一些重复计算。关键是利用了判据的单调性。
如果æ_i<æ_j,则有J(æ_i)≤J(æ_j)
次优搜索算法
顺序前进法(SFS)最简单的自下而上法,每次选取一个,使得与已经选入的特征组合判据最大
- 一般说来,由于考虑了特征之间的相关性,在选择特征时计算与比较了组合特征的判据值,要比前者好些。其主要缺点是,一旦某一特征被选入,即使由于后加入的特征使它变为多余,也无法再把它剔除
- 该法可推广至每次入选r个特征,而不是一个,称为广义顺序前进法(GSFS)。
顺序后退法(SBS)最简单的自上而下法
- 这是一种与SFS相反的方法,是自上而下的方法。做法也很简单,从现有的特征组中每次减去一个不同的特征并计算其判据,找出这些判据值中之最大值,如此重复下去直到特征数达到予定数值d为止
与SFS相比,此法计算判据值是在高维特征空间进行的,因此计算量比较大。 - 此法也可推广至每次剔除r个,称为广义顺序后退法(GSBS)
增l减r法在选择过程中加入局部的回溯
- 前面两种方法都有一个缺点,即一旦特征入选(或剔除),过程不可逆转。为了克服这种缺点,可采用将这两种方法结合起来的方法,即增l减r法。
- 其原理是对特征组在增加l个特征后,转入一个局部回溯过程,又用顺序后退法,剔除掉r个特征。这种方法既可能是“自上而下”方法,也可能是“自下而上”的,这取决于l与r的数据大小。当l<r时,入选特征数逐渐增加,属“自下而上”型,反之属“自上而下”型。
增 l减r法的推广
增 l减r法也可推广至用GSFS及GSBS代替SFS及SBS,并可在实现增加l特征时采用分几步实现。增l特征用Z_l步,减r则用Z_r步,该种方法一般称为(Z_l, Z_r)法。这种做法是为了既考虑入选(或剔除)特征之间的相关性,又不至因此引起计算量过大。合理地设置Z_l与Z_r ,可以同时对两者,即计算复杂性及特征选择的合理性兼顾考虑。
(Z_l, Z_r)算法
前面所讲的各种方法都可看作是(Z_l, Z_r)法的特例,它们的关系如下所示:
Z_l=(1), Z_r=(0):SFS(1, 0)算法
Z_l=(0), Z_r=(1):SBS(0, 1)算法
Z_l=(d), Z_r=(0):穷举法
Z_l=(l), Z_r=(0): GSPS(l)算法
Z_l=(0), Z_r=(r): GSBS(r)算法
Z_l=(1,1,…,1), Z_r=(1,1,…,1):(l, r)算法
网友评论