特征选择与特征学习算法研究--笔记1

作者: 浮若星尘 | 来源:发表于2018-05-18 01:09 被阅读0次

特征选择与特征学习算法研究--笔记1
机器学习中的特征选择及其Python举例
李航-第5章决策树
西瓜书学习笔记-特征选择与稀疏学习
2019-02-27
机器学习3——机器学习算法的过程
【特征工程】特征选择与特征学习
特征工程
2019-03-07
深度学习方法VS传统机器学习

特征选择与特征学习算法研究

2.1特征选择

特征选择过程
特征选择是对数据进行预处理的机器学习算法，通过从数据中筛选出最优特征子集实现对数据的降维，学习数据的良好表达，从而有助于目标任务的学习

特征选择流程图

理解特征选择的流程图

特征选择过程的两个核心是:[搜索策略] [评价函数]

对特征集的搜索策略，主要包括：

1.完全搜索策略，如广度优先搜索、分支限界搜索、最优优先搜索。完全搜索策略能找到全局最优解，但是需要遍历全部搜索空间，复杂度高。

分析：

采用分支限界的策略能一定程度上减小搜索空间，但是需要评价函数对特征数目具有单调性。

对于最优优先搜索，实际中需要设定一个阈值，在连续多次扩展中找不到更优特征子集时即停止搜索。

2.启发式搜索策略，如单独最优特征选择、序列前向选择、序列后向选择、双向搜索。启发式搜索采用一种贪心的策略，提高了搜索效率，但易于陷入局部最优值。

分析：

单独最优特征选择实际上对单个特征进行评价，并将评价较高的特征进行组合作为候选特征子集，效率较高，但忽略了特征之间的相关关系。

序列前向选择从空集开始，每次选择一个特征加入到最优特征集中，使得评估函数最优。

序列后向选择正好相反，以初始特征集为起点，每次从特征集中剔除一个特征，使得剔除后评估函数最优。

双向搜索结合了序列前向搜索和序列后向搜索，并且当两种搜索策略搜索到同一特征集时停止。

3.随机搜索策略，如随机生成序列算法、遗传算法。随机生成序列算法随机生成特征子集，不确定性较大，一般也需要较高地总循环次数才能找到较好的结果。随机搜索策略依赖于随机因素，其结果难以复现，稳定性差。
注：[对于想深度学习遗传算法的可以去了解下游戏编程中的人工智能这本书的第三章]

分析：

可以其它搜索策略结合使用，首先随机生成一个特征子集，然后在该子集上应用序列前向选择和序列后项选择，提高效率同时有利于跳出局部最优解。

遗传算法是对随机生成的一批特征子集，通过类似于染色体的交叉和变异操作，扩展搜索节点进而完成在特征空间的搜索。

评价函数是对候选特征集优劣的度量标准，直接影响特征选择的结果。

这部分都是概念东西，并没有算法介绍

准测：基于距离、一致性、依赖性以及误差度量的特征选择算法

距离度量准则，也称为类可分准则，考虑类间距离和类内距离，类间距离越大，类内距离越小，则特征的类区分能力越高;

—致性度量准则，对于给定的两个样本，如果他们特征的取值相同而类别不同，则两者之间存在不一致性，数据集的不一致性一般由重要特征的缺失造成，并给目标模型的学习带来困难；

依赖性度量准则，利用特征与类别的统计相关性评价特征的重要性程度，关于统计相关度的度量可采用皮尔逊相关系数、Fisher得分、互信息、平方回归误差等；

误差度量准则，直接利用特征在目标模型上的性能对特征集进行评价，有利于针对具体目标模型选择出最优特特征子集。

网友评论

本文标题：特征选择与特征学习算法研究--笔记1

本文链接：https://www.haomeiwen.com/subject/mabidftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！