美文网首页
特征工程之降维

特征工程之降维

作者: 老羊_肖恩 | 来源:发表于2019-07-17 20:38 被阅读0次

机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。维数约减或降维(Dimension Reduction)的目标是可以用较少的特征来表示原始特征中的大部分信息,去掉噪声信息,进而提高模型泛化性能,同时提高计算效率和减小维度灾难(Curse Of Dimensionality)。对于很多没有正则化的模型,特征选择和特征抽取非常必要。经过特征选择或特征抽取后,特征的数量一般会减少,因此特征选择和特征提取也经常称为降维。虽然对数据降维会不可避免地损失部分信息,但是降维可以帮助我们降低随机因素或噪声的干扰,从而更好地抓住数据的主要特征。

特征选择(Feature Selection)

特征选择是选取原始特征集合的一个有效子集,使得基于这个特征子集训练出来的模型准确率最高。简单地说,特征选择就是保留有用特征,移除冗余或无关的特征。

1. 子集搜索

一种直接的特征选择方法为子集搜索(Subset Search)。假设原始特征数为d,则共有2d 个候选子集。特征选择的目标是选择一个最优的候选子集。最暴力的做法是测试每个特征子集,看机器学习模型哪个子集上的准确率最高。但是这种方式效率太低。常用的方法是采用贪心的策略:由空集合开始,每一轮添加该轮最优的特征,称为前向搜索(Forward Search);或者从原始特征集合开始,每次删除最无用的特征,称为反向搜索(Backward Search)。
子集搜索方法又可以分为过滤式和包裹式的方法。

  • 过滤式(Filter)方法不依赖具体的机器学习模型。每次增加最有信息量
    的特征,或删除最没有信息量的特征[Hall, 1999]。信息量可以通过信息增益
    (information gain)来衡量。
  • 包裹式(Wrapper)方法是用后续机器学习模型的准确率来评价一个特征子
    集。每次增加对后续机器学习模型最有用的特征,或删除对后续机器学习任务最
    无用的特征。这种方法是将机器学习模型包裹到特征选择过程的内部。
2. ℓ1 正则化

由于ℓ1 正则化会导致稀疏特征,间接实现了特征选择。

特征提取(Feature Extraction)

特征提取是构造一个新的特征空间,并将原始特征投影在新的空间中。以线性投影为例,原始特征向量x ∈ R^d,经过线性投影后得到在新空间中的特征向量x′
x'=Px
其中P∈R^{k \times d}为映射矩阵。
特征提取又可以分为监督和无监督的方法。监督的特征学习的目标是提取对一个特定的预测任务最有用的特征,比如线性判别分析。而无监督的特征学习和具体任务无关,其目标通常是减少冗余信息和噪声,比如主成分分析、自编码器。

参考:
1.邱锡鹏:《神经网络与深度学习》

相关文章

  • 特征工程之降维

    机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。维数约减或降维(Dim...

  • 面试题目总结-机器学习算法-基础

    1.机器学习中特征的理解 def:特征选择和降维 特征选择:原有特征选择出子集,不改变原来的特征空间 降维:将原有...

  • sklearn学习 — 数据降维

    数据降维 降维:特征的数量 特征选择 主成分分析 特征选择 冗余:部分特征的相关的高,容易消耗计算性能 噪声:部分...

  • 学习笔记:sklearn-PCA降维

    PCA降维使用 看看降维后特征向量的信息量 查看降维后特征的信息量占原特征信息量的比例 用极大似然估计选取n_co...

  • PCA 主成分分析

    主成分根据,多维字段分析降维成几个成分 多维数组降维 几个特征向量对应几个特征空间

  • PCA降维

    当数据特征较多时,基本有两种方法:1 PCA降维2 Feature Selection(特征选择) PCA降维 <...

  • 基于sklearn的主成分分析

    理论部分 特征降维 特征降维是无监督学习的一种应用:将n维的数据降维为m维的数据(n>m)。可应用于数据压缩等领域...

  • 2019-04-08

    今天在看特征降维函数。

  • 单细胞笔记5-tSNE和UMAP

    降维 降维顾名思义就是把数据或特征的维数降低,一般分为线性降维和非线性降维,比较典型的如下: 线性降维:PCA(P...

  • 《机器学习》第11章 特征选择

    1、特征选择 特征选择和降维计算一样,都能有效的减轻维数灾难问题,事实上,特征选择和降维计算是处理高维数据的两大主...

网友评论

      本文标题:特征工程之降维

      本文链接:https://www.haomeiwen.com/subject/evzahctx.html