机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。维数约减或降维(Dimension Reduction)的目标是可以用较少的特征来表示原始特征中的大部分信息,去掉噪声信息,进而提高模型泛化性能,同时提高计算效率和减小维度灾难(Curse Of Dimensionality)。对于很多没有正则化的模型,特征选择和特征抽取非常必要。经过特征选择或特征抽取后,特征的数量一般会减少,因此特征选择和特征提取也经常称为降维。虽然对数据降维会不可避免地损失部分信息,但是降维可以帮助我们降低随机因素或噪声的干扰,从而更好地抓住数据的主要特征。
特征选择(Feature Selection)
特征选择是选取原始特征集合的一个有效子集,使得基于这个特征子集训练出来的模型准确率最高。简单地说,特征选择就是保留有用特征,移除冗余或无关的特征。
1. 子集搜索
一种直接的特征选择方法为子集搜索(Subset Search)。假设原始特征数为d,则共有2d 个候选子集。特征选择的目标是选择一个最优的候选子集。最暴力的做法是测试每个特征子集,看机器学习模型哪个子集上的准确率最高。但是这种方式效率太低。常用的方法是采用贪心的策略:由空集合开始,每一轮添加该轮最优的特征,称为前向搜索(Forward Search);或者从原始特征集合开始,每次删除最无用的特征,称为反向搜索(Backward Search)。
子集搜索方法又可以分为过滤式和包裹式的方法。
- 过滤式(Filter)方法不依赖具体的机器学习模型。每次增加最有信息量
的特征,或删除最没有信息量的特征[Hall, 1999]。信息量可以通过信息增益
(information gain)来衡量。- 包裹式(Wrapper)方法是用后续机器学习模型的准确率来评价一个特征子
集。每次增加对后续机器学习模型最有用的特征,或删除对后续机器学习任务最
无用的特征。这种方法是将机器学习模型包裹到特征选择过程的内部。
2. ℓ1 正则化
由于ℓ1 正则化会导致稀疏特征,间接实现了特征选择。
特征提取(Feature Extraction)
特征提取是构造一个新的特征空间,并将原始特征投影在新的空间中。以线性投影为例,原始特征向量,经过线性投影后得到在新空间中的特征向量。
其中为映射矩阵。
特征提取又可以分为监督和无监督的方法。监督的特征学习的目标是提取对一个特定的预测任务最有用的特征,比如线性判别分析。而无监督的特征学习和具体任务无关,其目标通常是减少冗余信息和噪声,比如主成分分析、自编码器。
参考:
1.邱锡鹏:《神经网络与深度学习》
网友评论