上一篇笔记在这里:《机器学习》西瓜书学习笔记(六)
第十章 降维与度量学习
10.1 k近邻学习
k近邻(k-Nearest Neighbor,kNN)学习是一种常用的监督学习方法,其工作机制非常简单:找离测试样本“最近”的k个训练样本,然后基于k个“邻居”的信息来进行观测。通常,在分类任务使用“投票法”,在回归任务使用“平均法”。
k近邻学习是懒惰学习(lazy learning)——在训练时仅仅保存样本,待收到测试样本后在进行处理;相应的,在训练阶段就对样本进行学习处理的方法称为急切学习(eager learning)。
给定测试样本x,其最近样本z,则最近邻分类器出错的概率就是x与z不同的概率,即
假设样本独立同分布,且对任意x和任意小正数δ,在x附近δ距离范围内总能找到一个训练样本z.令c=argmaxc∈YP(c|x*)表示贝叶斯最优分类器的结果,有
也就是说,最近邻分类器的泛化错误率不超过贝叶斯最优分类器的2倍。
10.2 低维嵌入
上一节的讨论基于一个前提:任意x和任意小正数δ,在x附近δ距离范围内总能找到一个训练样本,即训练样本密度足够大。在归一化d维空间内需要(1/δ)d,而d往往非常大,于是所需的样本数是天文数字,样本不够学不了,称为“维数灾难”(curse of dimensionality),所以我们需要降维。
在很多时候,虽然数据是高维的,但是与学习任务有关的只有低维,即高维空间的一个低维“嵌入”
多维缩放(Multiple Dimensional Scaling):
假定m个样本在原始空间的距离矩阵为D∈Rm×m,其第i行j列的元素distij为样本xi到xj的距离。我们的目标是获取样本在d'维空间的表示Z∈Rd'×m,d'<=d,且||zi-zj||=distij
令B=ZTZ∈Rm×m,其中B为降维后样本的内积矩阵,bij=ziTzj,有
为便于讨论,令Σi=1mzi=0,这样的话B的行的和与列的和均为0.即Σi=1mbij=Σj=1mbij=0,易知
其中tr是矩阵的迹(trace),tr(B)=Σi=1m||zi||2。令
由以上式子可得
10.3 主成分分析(Principal Component Analysis,PCA)
对于一个高维正交空间,找到一个超平面,最好满足:
- 最近重构性:样本点到这个超平面的距离足够近。
- 最大可分性:样本点在这个超平面上的投影能尽可能分开。
10.4 核化线性降维
高维到低维的映射是非线性的时候就需要核化线性降维。
举例:KPCA(详见教材)
10.5 流形学习
10.5.1 等度量映射
等度量映射(Isometric Mapping,简称Isomap)认为低维流形嵌入到高维空间之后,直接在高维空间中计算直线距离具有误导性。
(注:MDS详见第二节)
10.5.2 局部线性嵌入
与Isomap试图保证近邻样本之间的距离不同,局部线性嵌入(Locally Linear Embedding,简称LLE)试图保持邻域内样本之间的线性关系。
10.6 度量学习
举例:近邻成分分析
下一篇:《机器学习》西瓜书学习笔记(八)
网友评论