看数据集
分布情况、分散趋势(四分位数、方差)、中心趋势(均值、中位数)、正负样本比例
数据预处理
缺失值:删掉、邻近填充、平均值/中位数填充;
异常值:看箱型图判断,若是则删掉
平衡数据(必要时):过采样SMOTE
log变化(必要时):当模型需要正态分布样本而样本不符合时
分布情况、分散趋势(四分位数、方差)、中心趋势(均值、中位数)、正负样本比例
缺失值:删掉、邻近填充、平均值/中位数填充;
异常值:看箱型图判断,若是则删掉
平衡数据(必要时):过采样SMOTE
log变化(必要时):当模型需要正态分布样本而样本不符合时
本文标题:数据分析流程
本文链接:https://www.haomeiwen.com/subject/aobamhtx.html
网友评论