美文网首页
降维与特征选择

降维与特征选择

作者: HelloShane | 来源:发表于2018-01-15 23:22 被阅读0次

    第七章 降维与特征选择

    [TOC]

    1. 特征抽取和特征选择的区别

    特征抽取:在已有的特征上,采用特征变换的方法,生成新的特征集合。

    特征选择:使用某些方法,从特征中选择出特征子集。

    2.特征选择

    2.1 方法

    先从特征中选择特征子集->评价特征子集->是否停止

    -c500

    两个问题:

    1. 特征子集如何生成

    2. 如何评价

    2.2 特征子集生成

    2.2.1 穷举法

    事先确定要选出特征的个数d,$C_D^d$穷举出所有可能组合作评价,选择最优特征子集。适用于特征集较小的情况

    2.2.2 单独枚举

    评估所有的单个特征,选出最优的特征。这种方法没有考虑到特征之间的不独立性。

    2.2.3 SFS 前向序列

    每次加入一个特征,然后进行评估,选择出最优特征集合。

    那么对于选出d个特征,需要进行$C_D^d$次计算,与穷举相同

    2.2.4 GSFS广义SFS

    每次加入一组k个特征进行评估,选择出最优组合,计算量事实上要比SFS大

    2.2.5 SBS 反向序列

    每次去除一个特征,使得特征组合最优

    2.2.6 GSBS 广义反向序列

    每次去除一组k个特征,使得特征组合最优。

    2.2.7 特征子集生成

    相当于GSBS和GSFS的组合,加入L个,减去R个。

    2.2.8 广义特征子集生成

    分部进行,分d步增加特征,每一步都做评估,相同的,e步去除特征,每一步都做评估。

    2.3 特征评价准则

    分三种框架:Filter、wrapper、embedding方法。

    2.3.1 三种特征评测方法

    1. Filter

    不依赖于分类器,只是用数据来确定分类好坏。这里的数据要求是带标签数据,不然需要依赖分类器。就会退化为第二个warpper方法。

    评价准则:距离准则、概率可分、熵可分准则。

    -c400

    [图片上传失败...(image-d9f968-1516029506505)]

    根据w的变化来确定是否选择特征

    2. wrapper

    选择特征后,通过分类器分类来进行评估

    LVM方法:随机产生一个特征子集,计算错误率,若错误率小于之前选好的特征集合的最小错误率,则合并到选好的特征集中。

    -c300

    3. embedding方法

    特征选择过程在学习算法中完成,目标是完成学习过程。

    2.3.2 可分性度量方法

    在选择的特征下面,使用类内类间距离准则、概率可分、熵可分准则。计算分离程度或好坏

    1. 距离准则

    -c500

    2. 概率准则

    度量各个类别概率分布的重合程度。

    -c400 -c400 -c400 -c400 -c400

    3. 熵度量准则:一种基于互信息的判断方法,互信息是指两个随机变量之间的关联程度

    -c500

    3.特征抽取

    线性变换:PCA、LDA

    非线性变化:KPCA,KFDA,流行学习,NMF

    3.1 方法概述

    使用矩阵的近似表示.

    [图片上传失败...(image-9e01a2-1516029506505)]

    所以,目标是MSE。无正交要求

    [图片上传失败...(image-215316-1516029506505)]

    使用降维技术,生成新的特征表示

    [图片上传失败...(image-593fab-1516029506505)]

    左边的L表示样例的表示,中间X表示样例,右边的W表示新的特征空间

    其实质是求一个w,使得样本映射到w上,使得各个特征长度变化最小。

    -c500

    其中,$l_iW^T$表示。。。。有问题

    3.2 公式推导

    -c500

    中间等价成$l2$的时候,是因为$w{-1} = w^T$,

    -c500

    3.3 标准化样本

    -c500

    3.4 算法流程

    -c500 -c500

    相关文章

      网友评论

          本文标题:降维与特征选择

          本文链接:https://www.haomeiwen.com/subject/ifxjlxtx.html