第三部分 数据预处理
预处理技术:字段选择、数据清洗、字段扩充、数据编码
3.1数据清洗
异常数据甄别及处理方法:
类别型数据-观察各分类水平出现频次
类别型离群值处理方法:直接忽略法、人工填补法、自动填补法、推论法。
数值型数据-数据排序、四分位数法、平均值法
图形探索识别噪声:饼图、直方图、箱线图
数值型离群值处理方法:视为空值;天花板/地板法(盖帽法);函数校正法,做log10处理压缩数据。
盖帽法示例
mu = data.expenditure.mean()
sigma = data.expenditure.std()
lb = mu - 3 * sigma
hb = mu + 3 * sigma
tmp[tmp < lb] = lb
tmp[tmp > hb] = hb
函数校正法示例-取对数
data['log_expd']=np.log(tmp+1)
from sklearn.preprocessing import FunctionTransformer
functionTF = FunctionTransformer(np.log1p)
log_data=functionTF.fit_transform(data[['call','traffic']])
3.2数据编码
1) 数据正规化/标准化
极值正规化(Min-Max Normalization)
Python建模复习:数据预处理Z-分数正规化(Z-Score Normalization)
Python建模复习:数据预处理2) 数据泛化
数据离散化-人工分离、自动化分离=装箱法(等宽离散、等深离散)
数据精简-记录精简、域值精简、字段精简
记录精简即抽样:随机抽样、分层抽样、群集抽样、系统抽样
3.3特征提取
卡方检验针对类别型变量,若卡方值 的显著性小于等于0.05,即置信水平大于等于0.95,则该变量与目标变量之间的相关程度很大,会被系统选取为重要变量。
ANOVA检验(方差分析)和T检验主要针对数值型变量
Python建模复习:数据预处理连续性变量压缩技术:主成分分析、因子分析、变量聚类
离散变量压缩技术:水平聚类、WOE打分
网友评论