美文网首页
六.特征工程

六.特征工程

作者: 愿风去了 | 来源:发表于2018-10-23 13:33 被阅读7次

    特征工程——找到与问题有关的任何信息,把他们转化为特征矩阵的数值。

    这个过程通常被称为向量化,因为它把任意格式的数据转换成了具有良好特性的向量形式。

    主要有以下示例:

    (1)分类特征

    一种常见的非数值类型是分类数据。

    常用解决办法是独热编码(one-hot)。但这种方法有一个缺陷,如果分类特征有许多的枚举,那么数据集的维度就会很高。由于,被编码的数据中存在很多0,因此用系数矩阵表示会发非常高效!

    (2)文本特征

    将文本转换为一组数值。

    在数据采集最简单的编码方法之一就是单词统计。不过这种方法存在一些问题,会让原始单词中一些常用词聚集太高的权重,在分类算法中这样并不合理。

    解决方法之一就是采用TF-IDF(词频逆文档频率),通过单词在文档中出现的频率来衡量其权重。

    (3)图像特征

    对图像进行编码。

    (4)衍生特征

    将输入特征经过数学变换衍生出来的新特征。

    例如,将一个线性回归转换为多项式回归时,并不需要通过改变模型实现,而是通过改变输入数据!这种处理方法有时候被称为基函数回归。

    为数据增加多项式特征:

    这种方法不改变模型,而是通过变换输入来改善模型效果的理念,也是很多强大机器学习方法的基础。

    相关文章

      网友评论

          本文标题:六.特征工程

          本文链接:https://www.haomeiwen.com/subject/vvgozftx.html