特征工程——找到与问题有关的任何信息,把他们转化为特征矩阵的数值。
这个过程通常被称为向量化,因为它把任意格式的数据转换成了具有良好特性的向量形式。
主要有以下示例:
(1)分类特征
一种常见的非数值类型是分类数据。
常用解决办法是独热编码(one-hot)。但这种方法有一个缺陷,如果分类特征有许多的枚举,那么数据集的维度就会很高。由于,被编码的数据中存在很多0,因此用系数矩阵表示会发非常高效!
(2)文本特征
将文本转换为一组数值。
在数据采集最简单的编码方法之一就是单词统计。不过这种方法存在一些问题,会让原始单词中一些常用词聚集太高的权重,在分类算法中这样并不合理。
解决方法之一就是采用TF-IDF(词频逆文档频率),通过单词在文档中出现的频率来衡量其权重。
(3)图像特征
对图像进行编码。
(4)衍生特征
将输入特征经过数学变换衍生出来的新特征。
例如,将一个线性回归转换为多项式回归时,并不需要通过改变模型实现,而是通过改变输入数据!这种处理方法有时候被称为基函数回归。
为数据增加多项式特征:
这种方法不改变模型,而是通过变换输入来改善模型效果的理念,也是很多强大机器学习方法的基础。
网友评论