Python建模复习:数据预处理

作者: 啾啾二一 | 来源:发表于2019-05-21 07:35 被阅读2次

    第三部分 数据预处理

    预处理技术:字段选择、数据清洗、字段扩充、数据编码

    3.1数据清洗

    异常数据甄别及处理方法:

    类别型数据-观察各分类水平出现频次

    类别型离群值处理方法:直接忽略法、人工填补法、自动填补法、推论法。

    数值型数据-数据排序、四分位数法、平均值法

    图形探索识别噪声:饼图、直方图、箱线图

    数值型离群值处理方法:视为空值;天花板/地板法(盖帽法);函数校正法,做log10处理压缩数据。

    盖帽法示例

    mu = data.expenditure.mean()

    sigma = data.expenditure.std()

    lb = mu - 3 * sigma

    hb = mu + 3 * sigma

    tmp[tmp < lb] = lb

    tmp[tmp > hb] = hb

    函数校正法示例-取对数

    data['log_expd']=np.log(tmp+1)

    from sklearn.preprocessing import FunctionTransformer

    functionTF = FunctionTransformer(np.log1p)

    log_data=functionTF.fit_transform(data[['call','traffic']])

    3.2数据编码

    1) 数据正规化/标准化

    极值正规化(Min-Max Normalization)

    Python建模复习:数据预处理

    Z-分数正规化(Z-Score Normalization)

    Python建模复习:数据预处理

    2)  数据泛化

    数据离散化-人工分离、自动化分离=装箱法(等宽离散、等深离散)

    数据精简-记录精简、域值精简、字段精简

    记录精简即抽样:随机抽样、分层抽样、群集抽样、系统抽样

    3.3特征提取

    卡方检验针对类别型变量,若卡方值 的显著性小于等于0.05,即置信水平大于等于0.95,则该变量与目标变量之间的相关程度很大,会被系统选取为重要变量。

    ANOVA检验(方差分析)和T检验主要针对数值型变量

    Python建模复习:数据预处理

    连续性变量压缩技术:主成分分析、因子分析、变量聚类

    离散变量压缩技术:水平聚类、WOE打分

    相关文章

      网友评论

        本文标题:Python建模复习:数据预处理

        本文链接:https://www.haomeiwen.com/subject/wggrzqtx.html