美文网首页
特征选择与特征学习算法研究--笔记1

特征选择与特征学习算法研究--笔记1

作者: 浮若星尘 | 来源:发表于2018-05-18 01:09 被阅读0次

特征选择与特征学习算法研究

2.1特征选择

特征选择过程
特征选择是对数据进行预处理的机器学习算法,通过从数据中筛选出最优特征子集实现对数据的降维,学习数据的良好表达,从而有助于目标任务的学习

特征选择流程图

理解特征选择的流程图

特征选择过程的两个核心是:[搜索策略] [评价函数]

对特征集的搜索策略,主要包括:

1.完全搜索策略,如广度优先搜索分支限界搜索最优优先搜索。完全搜索策略能找到全局最优解,但是需要遍历全部搜索空间,复杂度高。

分析:

  • 采用分支限界的策略能一定程度上减小搜索空间,但是需要评价函数对特征数目具有单调性。
  • 对于最优优先搜索,实际中需要设定一个阈值,在连续多次扩展中找不到更优特征子集时即停止搜索。

2.启发式搜索策略,如单独最优特征选择序列前向选择序列后向选择双向搜索。启发式搜索采用一种贪心的策略,提高了搜索效率,但易于陷入局部最优值。

分析:

  • 单独最优特征选择实际上对单个特征进行评价,并将评价较高的特征进行组合作为候选特征子集,效率较高,但忽略了特征之间的相关关系。
  • 序列前向选择从空集开始,每次选择一个特征加入到最优特征集中,使得评估函数最优。
  • 序列后向选择正好相反,以初始特征集为起点,每次从特征集中剔除一个特征,使得剔除后评估函数最优。
  • 双向搜索结合了序列前向搜索和序列后向搜索,并且当两种搜索策略搜索到同一特征集时停止。

3.随机搜索策略,如随机生成序列算法遗传算法。 随机生成序列算法随机生成特征子集,不确定性较大,一般也需要较高地总循环次数才能找到较好的结果。随机搜索策略依赖于随机因素,其结果难以复现,稳定性差。
注:[对于想深度学习遗传算法的可以去了解下游戏编程中的人工智能这本书的第三章]

分析:

  • 可以其它搜索策略结合使用,首先随机生成一个特征子集,然后在该子集上应用序列前向选择和序列后项选择,提高效率同时有利于跳出局部最优解。
  • 遗传算法是对随机生成的一批特征子集,通过类似于染色体的交叉和变异操作,扩展搜索节点进而完成在特征空间的搜索。

评价函数是对候选特征集优劣的度量标准,直接影响特征选择的结果。

这部分都是概念东西,并没有算法介绍

准测:基于距离一致性依赖性以及误差度量的特征选择算法
  • 距离度量准则,也称为类可分准则,考虑类间距离和类内距离,类间距离越大,类内距离越小,则特征的类区分能力越高;
  • —致性度量准则,对于给定的两个样本,如果他们特征的取值相同而类别不同,则两者之间存在不一致性,数据集的不一致性一般由重要特征的缺失造成,并给目标模型的学习带来困难;
  • 依赖性度量准则,利用特征与类别的统计相关性评价特征的重要性程度,关于统计相关度的度量可采用皮尔逊相关系数、Fisher得分、互信息、平方回归误差等;
  • 误差度量准则,直接利用特征在目标模型上的性能对特征集进行评价,有利于针对具体目标模型选择出最优特特征子集。

相关文章

  • 特征选择与特征学习算法研究--笔记1

    特征选择与特征学习算法研究 2.1特征选择 特征选择过程特征选择是对数据进行预处理的机器学习算法,通过从数据中筛选...

  • 机器学习中的特征选择及其Python举例

    1.关于特征选择简单来说,特征选择就是在你使用机器学习算法之前,通过相关处理来选择与你的预测变量或者输出结果,最有...

  • 李航-第5章决策树

    决策树的学习算法包特征选择、决策树的生成与决策树的剪枝过程。决策树学习应用信息增益准则选择特征。信息增益大的特征具...

  • 西瓜书学习笔记-特征选择与稀疏学习

    特征选择与稀疏学习 1. 子集搜索与评价 我们将属性称为特征,与学习任务相关的为相关特征,无用的属性为无关特征。从...

  • 2019-02-27

    内容为西瓜书的第10章特征选择和第11章特征降维。 1 在机器学习工程中,特征工程才是最重要,特征决定着算法的上限...

  • 机器学习3——机器学习算法的过程

    过程:1.特征提取2.特征选择3.设计算法……………………………………………………………………——————————...

  • 【特征工程】特征选择与特征学习

    特征选择与特征学习 在机器学习的具体实践任务中,选择一组具有代表性的特征用于构建模型是非常重要的问题。特征选择通常...

  • 特征工程

    数据和特征决定了机器学习的上限,模型和算法只是逼近这个上限。特征工程对原始数据进行特征提取、特征预处理、特征选择等...

  • 2019-03-07

    ML——特征选择和稀疏学习 子集搜索与评价 特征选择的原因:1)属性过多易造成维数灾难,仅选择重要特征构建模型则能...

  • 深度学习方法VS传统机器学习

    传统机器学习算法:输入——人工特征提取——权重学习——预测结果 深度学习算法:输入——基础特征提取——多层复杂特征...

网友评论

      本文标题:特征选择与特征学习算法研究--笔记1

      本文链接:https://www.haomeiwen.com/subject/mabidftx.html