美文网首页机器学习
【机器学习】特征工程:特征组合

【机器学习】特征工程:特征组合

作者: 宅家学算法 | 来源:发表于2021-10-27 10:33 被阅读0次

      为了提高复杂关系的拟合能力,在特征工程中经常会把一阶离散特征两两组合,构成高阶组合特征,即不同类型或者不同维度特征之间的交叉组合。可以进行组合的特征包括离散特征和连续特征,但是连续特征需要进行一定的处理(如分桶等)后才可以进行特征组合。
      一般的特征组合可以理解为两个离散特征和特征交叉合并,如特征A有m个类别,特征B有n个类别,则特征A和特征B的组合就是将特征A、B中的各个类别两两组合,其维度为m*n。
      特征组合具备一个极为明显的隐患,即当一个特征的类别非常多的时候会出现组合特征向量维度极高的情况,这个时候就需要用到降维处理了。常用的将为处理有:

    • 奇异值分解:SVD,无监督的降维算法,其可以用来对任一矩阵(不要求为方阵)进行分解;
    • 主成分分析:PCA,无监督的降维算法,用于提取数据的主要特征分量。其基本思想是如果样本在某一维度上的方差越大,则该维度包含的信息就越多;反之如果某一维度上的方差非常小,则该维度基本不含信息,去掉也不会有多大损失;其目标是希望找到个空间变换矩阵使得样本在新空间各基底(坐标轴)上的方差尽可能的大,然后直接舍弃掉方差最小的那几个新空间基底(坐标轴)就达到了降维的目的了;其主要步骤是对数据矩阵的协方差矩阵进行分解,求特征值和特征向量;
    • 线性判别分析:LDA,监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的,其基本思想是希望找到个投影矩阵使得投影(降为后),各类样本类内尽可能的聚集、类间尽可能的分散。
        特征组合一般和特征选择同时进行,通过特征选择来有效的找到组合后能较好拟合结果的特征,特征选择一般选用决策树方法。深度学习可以学习到一些特征之间的联系,tf也提供了特征融合函数,在数据量、类别较大、特征关联性不突出的时候可以考虑直接借用深度学习模型。

    相关文章

      网友评论

        本文标题:【机器学习】特征工程:特征组合

        本文链接:https://www.haomeiwen.com/subject/wmgualtx.html