基本概念
统计学习三要素:模型(假设空间)、策略(评价准则)、算法(模型学习的算法)
监督学习下,统计学习:在给定的、有限的、用于学习的训练数据集出发,假设数据是独立分布产生的;并且假设要学习的模型属于某个函数的集合,称为假设空间;应用某个评价准则,从假设空间中选取一个最优的模型,使它对已知训练数据及未知测试数据给定的评价准则下有最优的预测;最优的模型选取由算法实现。
一、特征工程
特征工程:对原始数据进行一系列的工程处理,将其提炼为特征,作为输入供算法和模型使用。本质是表示和展示数据的过程,实际工作中,旨在去除原始数据的冗余和杂质,设计更高效的特征以刻画求解的问题与预测模型之间的关系。
常用数据类型:1)结构化数据,类似于关系型数据的表,列包含数值型、类别型两种基本信息;每一行数据表示一个样本信息。2)非结构化数据:文本、图片、音频、视频等,无法用简单数值表示,没有清晰的类别定义,每条数据大小不一。
1. 特征归一化(Normalization):为了消除数据特征之间的量纲影响(数值型数据),是不同的指标之间具有可比性。
1)线性函数归一化(Min-MaxScaling) 映射到[0,1],线性变化X按照比例压缩a=Xmax-Xmin再进行平移c=b/a (b=Xmin)
线性变化不改变原始数据的数值排序。
其缩放是“拍扁”统一到区间(仅由极值决定)
2)零均值归一化(Z-ScoreNormalization)映射到均值为0,标准差为1的分布上
也是线性变化:其缩放是更加“弹性”和“动态”的,和整体样本的分布有很大的关系。
在分类、聚类算法中,需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候,第二种方法(Z-score standardization)表现更好。在不涉及距离度量、协方差计算、数据不符合正太分布的时候,可以使用第一种方法或其他归一化方法。比如图像处理中,将RGB图像转换为灰度图像后将其值限定在[0 255]的范围。
为什么在距离度量计算相似性、PCA(主成分分析)用第二种方法更好,分析如下:
归一化方法对方差、协方差的影响:首先看0均值对方差、协方差的影响,归一化后与原始数据的协方差一样。
做方差归一化后,可以看到,使用第一种方法(线性变换后),其协方差产生了倍数值的缩放,因此这种方式无法消除量纲对方差、协方差的影响,对PCA分析影响巨大;同时,由于量纲的存在,使用不同的量纲、距离的计算结果会不同。
而在第二种归一化方式中,新的数据由于对方差进行了归一化,这时候每个维度的量纲其实已经等价了,每个维度都服从均值为0、方差1的正态分布,在计算距离的时候,每个维度都是去量纲化的,避免了不同量纲的选取对距离计算产生的巨大影响。
梯度下降中,归一化后,下降速率会更快。
需要归一化的模型:线性回归、逻辑回归、支持向量机、神经网络等。
不需要:决策树、图像处理
2. 类别型编码
只在有限项类取值的特征,通常是字符串,处理成数值(除决策树少数模型可以用字符串)
序号编码:处理类别间有大小关系的数据,保留大小关系
独热编码:没有大小关系的类别数据,n维稀疏矩阵,如血型:A(1,0,0,0) B(0,1,0,0)。注意:使用稀疏向量来节省空间;配合特征选择来降维(高维度问题:k邻近算法距离难有效衡量; 逻辑回归中参数增加,容易过拟合; 只有部分维度对分类、预测有用)
二进制编码:类别ID -> 二进制码 (维数少于独热编码)
3.高维组合特征处理
提高复杂关系的拟合能力,将一阶离散特征两两组合,构成高阶特征。
当参数规模大的情况下,矩阵分解降维。m*n->m*k + n*k [其中k<<m, k<<n]
不懂:
降维方法:
线性映射:PCA(主成分分析) LDA(线性判别)
非线性映射:核方法(KPCA,KFDA)、流型学习(ISOMap 等距映射,LE拉普拉斯特征映射、LLE局部线性嵌入)
)
|_ 映射方法 __线性映射方法:PCA、FDA等
|__非线性映射方法:
|__核方法:KPCA、KFDA等
|__二维化
|__流形学习:ISOMap、LLE、LPP等。
|__其他方法:神经网络和聚类
4. 组合特征
不能简单的两两组合,容易参数过多,过拟合。
组合方法:
基于决策树的特征组合寻找方法。 构造决策树:采用梯度提升决策树,该方法每次在之前构建的决策树的残差上构建下一颗决策树。
5.文本表示模型
文本表示模型:词袋模型、N-gram模型、主题模型、词嵌入模型
词袋模型:将整段文字以词为单位且分开,为一个长向量,每维为一个单词,而该维对应的权值反应词在文章中重要程度。TF-IDF(term frequency–inverse document frequency是一种用于信息检索与数据挖掘的常用加权技术。TF-IDF(t,d)= TF* IDF,TF意思是词频[Term Frequency],IDF意思是逆文本频率指数[Inverse Document Frequency],用来衡量词t对表达语义的重要性,IDF(t)=log 文章总数/(包含单词t的文章数+1))计算权值.
网友评论