美文网首页机器学习
06 特征工程 - 特征选择

06 特征工程 - 特征选择

作者: 白尔摩斯 | 来源:发表于2019-01-02 21:18 被阅读307次

05 特征工程 - 缺省值填充

当做完特征转换后,实际上可能会存在很多的特征属性,比如:多项式扩展转换、文本数据转换等等,但是太多的特征属性的存在可能会导致模型构建效率降低,同时模型的效果有可能会变的不好,那么这个时候就需要从这些特征属性中选择出影响最大的特征属性作为最后构建模型的特征属性列表。

在选择模型的过程中,通常从两方面来选择特征:
1、特征是否发散:如果一个特征不发散,比如方差接近于0,也就是说这样的特征对于样本的区分没有什么作用。
2、特征与目标的相关性:如果与目标相关性比较高,应当优先选择。

特征选择的方法主要有以下三种:

1、Filter:过滤法,按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数,从而选择特征;常用方法包括方差选择法相关系数法卡方检验互信息法等。

2、Wrapper:包装法,根据目标函数(通常是预测效果评分),每次选择若干特征或者排除若干特征;常用方法主要是递归特征消除法
举例: 根据x1、x2、x3特征分别训练一个模型S11~S13,测评分。对比评分,找到模型评分高的特征。若x3效果最好,下一轮用x3、x1 和 x3、x2训练模型S21~S22,测评分,若S22评分高,对比S22和S13,若S13比S22评分好,则停止迭代,最佳特征组合是x3。若S22评分大于S13,再比较 x2,x3 和 x1,x2,x3的评分。

3、Embedded:嵌入法,先使用某些机器学习的算法和模型。


方差选择法

方差选择法:先计算各个特征属性的方差值,然后根据阈值,获取方差大于阈值的特征。

threshold = 0 表示设置方差的阈值为0;
方差为0,几乎等于是选择了所有特征。因为一组特征,若干方差等于0表示数据完全相等,一般不太会有这种数据。


相关系数法

相关系数法:先计算各个特征属性对于目标值的相关系数以及阈值K,然后获取K个相关系数最大的特征属性。(备注:根据目标属性y的类别选择不同的方式)


卡方检验

卡方检验:检查定性自变量对定性因变量的相关性。
K方值越大,说明两个特征之间的关联性越大。


递归特征消除法

递归特征消除法:使用一个基模型来进行多轮训练,每轮训练后,消除若干权值系数的特征,再基于新的特征集进行下一轮训练。

举例: 根据x1、x2、x3特征分别训练一个模型S11~S13,测评分。对比评分,找到模型评分高的特征。若x3效果最好,下一轮用x3、x1 和 x3、x2训练模型S21~S22,测评分,若S22评分高,对比S22和S13,若S13比S22评分好,则停止迭代,最佳特征组合是x3。若S22评分大于S13,再比较 x2,x3 和 x1,x2,x3的评分。


基于惩罚项的特征选择法

在使用惩罚项的基模型,除了可以筛选出特征外,同时还可以进行降维操作。


基于树模型的特征选择法

树模型中GBDT在构建的过程会对特征属性进行权重的给定,所以GBDT也可以应用在基模型中进行特征选择。


07 特征工程 - 特征降维 - PCA

相关文章

  • 07 特征工程 - 特征降维 - PCA

    06 特征工程 - 特征选择 特征降维必须在特征选择做完以后才能进行。 当特征选择完成后,可以直接可以进行训练模型...

  • 06 特征工程 - 特征选择

    05 特征工程 - 缺省值填充 当做完特征转换后,实际上可能会存在很多的特征属性,比如:多项式扩展转换、文本数据转...

  • 特征工程(二)特征选择及python实现

    什么是特征选择 特征工程(Feature Selection),也叫做特征子集选择(Feature Subset ...

  • 特征工程1——特征选择

    转载:https://www.cnblogs.com/pinard/p/9093890.html 特征工程是数据分...

  • 特征工程1——特征选择

    转载:https://www.cnblogs.com/pinard/p/9093890.html 特征工程是数据分...

  • 特征选择与特征工程

    特征选择与特征工程 特征工程是机器学习的第一步,涉及清理现有数据集、提高信噪比和降低维数的所有技术。大多数算法对输...

  • 特征工程(二)——特征选择

    “巧妇难为无米之炊”,放到数据行业,“巧妇”是模型,“米”就是数据与特征。正如业界经典的一句话"Garbage i...

  • 【特征工程】特征选择与特征学习

    特征选择与特征学习 在机器学习的具体实践任务中,选择一组具有代表性的特征用于构建模型是非常重要的问题。特征选择通常...

  • 数据挖掘实践任务2

    任务2: 特征工程(2天) 特征衍生特征挑选:分别用IV值和随机森林等进行特征选择……以及你能想到特征工程处理 结...

  • 机器学习特征工程--特征选择

    前言 特征工程是数据分析中最耗时间和精力的一部分工作,它不像算法和模型那样是确定的步骤,更多是工程上的经验和权衡。...

网友评论

    本文标题:06 特征工程 - 特征选择

    本文链接:https://www.haomeiwen.com/subject/rqmtrqtx.html