1.数据统计
a.用describe函数对数据快速统计汇总
分析df['taixin']
df['taixin'].describe()
我们希望每一个数据都是float类型或者int类型,如图1-2。可以非常快速的统计出这一列的均值、最大最小值等等。如果之前没有处理好出现了文本,则结果如图1-1所示。
图1-1 图1-2b.用distplot函数看数据
seaborn的distplot()集合了matplotlib的hist()与核函数估计kdeplot的功能
sns.distplot(df['taixin'])
plt.show()
图1-3
2.几种简单填充缺失值的方法
a.固定值填充
都填90
df['taixin'] = df['taixin'].fillna('90')
b.均值填充
定要保证其余数据的都是int或float类型
df['taixin'] = df['taixin'].fillna(df['taixin'] .mean())
c.众数填充
一定要保证其余数据的都是int或float类型
df['taixin'] = df['taixin'].fillna(df['taixin'].mode())
d.上下数据填充
用前一个非缺失值填充
df['taixin'] = df['taixin'].fillna(method='pad')
用后一个非缺失值填充
df['taixin'] = df['taixin'].fillna(method='bfill')
e.插值法填充
前后非缺失值的均值填充
df['taixin'] = df['taixin'].interpolate()
网友评论