数据预处理:
步骤:
删除不需要的列;填补缺失值;类别特征进行labelencode;连续值进行切分
1.分析数据有哪些是类别型的/哪些是数值型的/哪些是混合数据类型/哪些数据是可能有错误/哪些特征包含空格空值/特征是什么类型的:
类别型中有没有是有序数关系的;数值型数据中是否是连续的或者离散的;混合数据类型中是数值字母和数字混合;如名字里面含有括号等;特征是整型浮点型还是字符串型。
train_df.info()也太好用了吧!告诉你每个特征类型和有多少个值这样就知道缺失的值个数。
train_df.describe()知道数据的信息。
2.分析特征和目标的关系,特征取某个值的时候目标值为1的概率大,针对类别/序数/离散型数据比较有效。
3.连续型数值的话处理使用直方图。使用seaborn中的FacetGrid http://www.pianshen.com/article/5733143837/
4.处理数据
有些数据删除:train_df.drop()默认是不会改变原数据的,对原数据进行重新赋值。别忘了加入combine.
有些string类别数据需要转换为数字:使用dataset[].map(字典)
有些数据有缺失:dataset[].fillna(),删除na的话使用dropna(),同时可以使用某一类数据的特征值填充,找到空的值isnull()
有些连续型数据:分段然后赋值
网友评论