Kaggle

作者: 雨宝_f737 | 来源:发表于2019-01-03 20:58 被阅读0次

数据预处理:

步骤:

删除不需要的列;填补缺失值;类别特征进行labelencode;连续值进行切分

1.分析数据有哪些是类别型的/哪些是数值型的/哪些是混合数据类型/哪些数据是可能有错误/哪些特征包含空格空值/特征是什么类型的:

类别型中有没有是有序数关系的;数值型数据中是否是连续的或者离散的;混合数据类型中是数值字母和数字混合;如名字里面含有括号等;特征是整型浮点型还是字符串型。

train_df.info()也太好用了吧!告诉你每个特征类型和有多少个值这样就知道缺失的值个数。

train_df.describe()知道数据的信息。

2.分析特征和目标的关系,特征取某个值的时候目标值为1的概率大,针对类别/序数/离散型数据比较有效。

3.连续型数值的话处理使用直方图。使用seaborn中的FacetGrid http://www.pianshen.com/article/5733143837/

4.处理数据

有些数据删除:train_df.drop()默认是不会改变原数据的,对原数据进行重新赋值。别忘了加入combine.

有些string类别数据需要转换为数字:使用dataset[].map(字典)

有些数据有缺失:dataset[].fillna(),删除na的话使用dropna(),同时可以使用某一类数据的特征值填充,找到空的值isnull()

有些连续型数据:分段然后赋值

相关文章

网友评论

      本文标题:Kaggle

      本文链接:https://www.haomeiwen.com/subject/qnqfrqtx.html