美文网首页
特征选择(三)

特征选择(三)

作者: 士多啤梨苹果橙_cc15 | 来源:发表于2017-08-14 17:57 被阅读0次

转自july算法班:

为什么要进行特征选择?

原因:

1)冗余:部分特征的相关度太高了,消耗计算性能

2)噪声:部分特征对预测结果有负影响

--  特征选择  VS  降维

1. 前者只踢掉原本特征里和结果预测关系不大的,后者做特征的计算组合构成新特征

2. SVD或者PCA确实也能解决一些高维度问题

---常见的特征选择

------过滤型

评估单个特征和结果之间的相关程度,留下top相关的特征部分

Pearson相关系数、互信息、距离相关度量

缺点:没有考虑到特征之间的相互关联作用,可能把有用的关联特征误踢掉

sklearn-->selectKBest-->selectPercentile

----常见的特征选择方式--包裹型【适合线性模型】

1. 把特征看作一个特征子集搜索的过程,筛选各种特征子集,用模型评估效果

2. 典型的包裹型“递归特征删除算法”RFE

1)用全量特征跑一个模型

2)根据线性模型的系数(体现相关性),删除掉5-10%的弱特征,观察准确率/AUC的变化【用逻辑回归算theta,剔除掉theta小的特征】

3)逐步进行,直到AUC出现大的下滑停止

3. 如果是用LR呢?

----一般先做特征工程,再做特征选择

------常见的特征选择--嵌入型

1)根据模型来分析特征的重要性(有别于上面的方式,是从生产的模型权重等)

2)最常见的方式是用正则化来做特征选择

3)举个栗子,最早在电商用LR做CTR预估,在3亿-5亿维的系数特征上用L1正则化的LR模型,剩余2-3千万的feature,意味着其他的feature重要度不够

L1正则化是截断性效益

L2正则化是缩段性效益

线性模型的话可以用SelectFromModel

lsvc = LinearSVC(c=0.01,penalty="L1",dual=False).fit(X,y)

相关文章

  • 特征选择(三)

    转自july算法班: 为什么要进行特征选择? 原因: 1)冗余:部分特征的相关度太高了,消耗计算性能 2)噪声:部...

  • 用于分类的决策树的理解

    决策树学习的三个步骤:特征选择,决策树生成,决策树剪枝。 特征选择 特征选择在于选取对训练数据具有分类能力的特征。...

  • 用R语言实现遗传算法

    ——by不是杀杀 模式识别的三大核心问题包括: 特征数据采集与预处理 分类识别 特征选择与提取特征选择和提取的目的...

  • 决策树

    例子1 打网球 抓重点:每个特征的影响力 例子2 选择属性 例子3 特征选择特征选择2特征选择3随机森林选择特征...

  • 3. 机器学习之特征选择

    1. 特征选择( Feature Selection ) 1.1 特征选择的定义 特征选择( Feature ...

  • 浅读机器学习有感(二)

    六、机器学习中的特征选择: 6.1什么是特征选择? 特征选择就是单纯地从提取到的所有特征中选择部分特征作为训...

  • 特征选择与特征学习算法研究--笔记1

    特征选择与特征学习算法研究 2.1特征选择 特征选择过程特征选择是对数据进行预处理的机器学习算法,通过从数据中筛选...

  • 特征选择, 经典三刀

    ​特征选择(Feature Selection,FS)和特征抽取(Feature Extraction, FE)是...

  • 机器学习笔记6-特征选择和特征提取

    特征选择和特征提取 特征选择(feature selection)和特征提取(Feature extraction...

  • 算法笔记(19)自动特征选择及Python代码实现

    自动特征选择常用方法包括使用单一变量法进行特征选择、基于模型的特征选择、迭代式特征选择。 使用单一变量法进行特征选...

网友评论

      本文标题:特征选择(三)

      本文链接:https://www.haomeiwen.com/subject/ltourxtx.html