数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限。因此,特征工程在机器学习过程中占据极其重要的一部分,在这一过程中,需要最大限度地从原始数据中提取能够更好地代表预测模型潜在问题的特征以供算法使用,较好的特征工程能够极大的提高对未知数据的模型准确性
特征抽取作为特征工程的一部分,主要是对原始数据进行映射转换为模型能够接受的新的特征。本文是一遍归集文章,主要整理几种比较常见的特征抽取方法。
1.字典特征抽取
把字典中一些类别数据,分别进行转换成特征。因为原始数据中有的数据是文本的或者字符串的形式存在,这时候计算机并不能识别此类型的数据,因此需要对数据进行特征抽取。对于本来就是数值型的数据(如温度等)直接保留,而对于有类别的数据则要先转化为字典数据,sklearn采用one-hot编码的方式处理。
2.主成分分析PCA
信号表示,特征抽取后的特征要能够精确地表示样本信息,使得信息丢失很小。
3.线性评判分析LDA
信号分类,特征抽取后的特征,要使得分类后的准确率很高,不能比原来特征进行分类的准确率低。
网友评论