美文网首页
【机器学习】特征选择(feature selection)

【机器学习】特征选择(feature selection)

作者: Victorrrrr | 来源:发表于2019-06-12 12:29 被阅读0次

    特征选择

      当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征:

    特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。

    特征与目标的相关性:这点比较显见,与目标相关性高的特征,应当优选选择。除方差法外,本文介绍的其他方法均从相关性考虑。

      根据特征选择的形式又可以将特征选择方法分为3种:


    Filter方法

        其主要思想是:对每一维的特征“打分”,即给每一维的特征赋予权重,这样的权重就代表着该维特征的重要性,然后依据权重排序。

        主要的方法有:

    Chi-squared test(x2)(卡方检验)

    Pointwise mutual information(PMI)

    互信息(Mutual Information)

    Wrapper:包装法

    其主要思想是:将子集的选择看作是一个搜索寻优问题,生成不同的组合,对组合进行评价,再与其他的组合进行比较。这样就将子集的选择看作是一个是一个优化问题,这里有很多的优化算法可以解决,尤其是一些启发式的优化算法

    优势:可以找出performance最好的feature set

    劣势:要花很长时间

    那具体多长时间呢?

    只适用于attribute少的dataset,不然一辈子跑不完

    wrapper的具体实现有两种方法,greedy和ablation

    Embedded:嵌入法

    先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征。类似于Filter方法,但是是通过训练来确定特征的优劣。

    相关文章

      网友评论

          本文标题:【机器学习】特征选择(feature selection)

          本文链接:https://www.haomeiwen.com/subject/nczaxctx.html