上一篇笔记在这里:《机器学习》西瓜书学习笔记(七)
第十一章 特征选择与稀疏学习
11.1 子集搜索与评价
相关特征:对当前学习任务有用的特征。
特征选择:选择相关特征。
如何评价候选特征子集的好坏?
- 子集搜索:每一轮选择最优(前向)或者去除最无关(后向),基于贪心策略,仅考虑局部最优,且不穷举无法避免。
- 子集评价: 给定数据集D,假定D中第i类样本所占的比例是pi,计算属性子集A的信息增益
其中信息熵定义为
Gain(A)越大越好。
常见的特征选择方法大致可分为三类:过滤式、包裹式和嵌入式。
11.2 过滤式选择
过滤式方法先对数据集进行特征选择,然后在训练学习器,特征选择与后续学习器无关。
Relief(Relevant Features)是一种著名的过滤式特征选择方法,该方法设计了一个“相关统计量”来度量特征的重要性。该统计量是一个向量,其每个分量分别对应一个初始特征,其重要性取决于相关统计量分量之和。
Relief的变种Relief-F,用于多类分类
11.3 包裹式选择
与过滤式特征选择不同,包裹式特征选择直接把后续学习器的性能作为特征子集的评价准则。
11.4 嵌入式选择与L1正则化
嵌入式选择将特征选择过程与学习器训练过程融为一体。
11.5 稀疏表示与字典学习
两种稀疏性:无关属性和零元素。
为普通稠密表达的样本找到合适的字典,将样本转化成合适的稀疏表示形式,从而使学习任务得以简化,模型复杂度得到降低,通常称为“字典学习”或“稀疏编码”。
B∈Rd×k为字典矩阵,k称为字典的词汇量,通常由用户决定,αi∈Rk则是样本xi∈Rd的稀疏表示。
11.6 压缩感知
假定有长度为m的离散信号x,不妨假定我们以远小于奈奎斯特采样定理要求的采样率进行采样,得到长度为n的采样信号y,n<<m,即y=Φx,其中Φ∈Rn×m是对信号x的测量矩阵,它确定了以什么频率进行采样以及如何将采样样本组成采样后的信号。
已知x和Φ容易求得y,而x难以算出。
不妨假设存在某个线性变换ψ∈Rm×m,使得x可表示为ψs,于是y可表示为y=Φψs=As,其中A=Φψ∈Rn×m.于是,若能根据y恢复出s,则可通过x=ψs来恢复出信号x。
网友评论