美文网首页
大师兄的数据分析学习笔记(十):特征预处理(一)

大师兄的数据分析学习笔记(十):特征预处理(一)

作者: superkmi | 来源:发表于2022-05-27 18:22 被阅读0次

大师兄的数据分析学习笔记(九):特征工程
大师兄的数据分析学习笔记(十一):特征预处理(二)

一、数据清洗

1. 数据样本抽样
  • 当数据样本很大或某些获取全量数据不现实的情况下,通过抽样可以以较小的失真为代价,方便地获得较为准确的统计结果。
  • 抽样的注意事项如下:
  • 样本要具备代表性,样本各个特征的比例应尽可能与整体的比例保持一致。
  • 样本比例要平衡,如样本不平衡时应进行对应处理。
  • 尽量考虑使用全量数据。
2. 异常值处理
  • 在特征预处理中,异常值分析的目的是为模型建立打基础,所以采取的主要手段是将异常值丢弃替换
  • 方法示例:

(1) 识别方法:

import os
import pandas as pd

df = pd.read_csv(os.path.join(".", "data", "WA_Fn-UseC_-HR-Employee-Attrition.csv"))
df.isnull()  # 判断空值
df.duplicated()  # 判断重复值

(2) 丢弃方法:

import os
import pandas as pd

df = pd.read_csv(os.path.join(".", "data", "WA_Fn-UseC_-HR-Employee-Attrition.csv"))
df.drop()  # 丢弃值
df.dropna()  # 丢弃空值
df.drop_duplicates()  # 丢弃重复值

(3) 替换方法:

import os
import pandas as pd

df = pd.read_csv(os.path.join(".", "data", "WA_Fn-UseC_-HR-Employee-Attrition.csv"))
df.fillna()  # 替代空值

二、标注

  • 标注是目标属性,特征是其它相关属性,而建模的目的是为了建立目标属性和相关属性之间的关系。
  • 标注通常是被关注但又不容易直接获得的属性。

相关文章

网友评论

      本文标题:大师兄的数据分析学习笔记(十):特征预处理(一)

      本文链接:https://www.haomeiwen.com/subject/caynurtx.html