在数据集里面的缺失值需要填充起来,避免各种出错。
数据源 fillna填充 mean()和sum()填充fillna可以指定数值进行填充,也可以使用计算公式进行填充,比如df.mean()、df.sum()等。
还可以指定用那一列的数据进行填充:
填充指定的列的数据在做分析的时候,我们经常要将缺失值填充为前一个值,或者是后一个值,而不是单纯的填充0或者均值。
使用指定method来向前或向后填充其中‘bfill’就是将缺失值按照后面一个值进行填充,'ffill' 就是将缺失值按照前面一个值进行填充。
这里的前、后一个数值默认是纵向看的,如果需要使用左或者右边的数值进行填充,只需要加参数axis=1,就可以了。
指定axis = 1为向左向右的数值填充用limit限制每列可以替代NaN的数目,下面我们限制每列只能替代一个NaN。
限制填充的数目由于本文档每列只有一个缺失值,所以看起来不明显。
查询是否有缺失值isnull函数:
查询缺失值还可以用describe()函数计算确实的值:
用describe()函数计算确实值个数以上的操作都是没有改变源数据的,如果要改变源数据的话需要添加参数inplace = True才可以改变源数据(也可以用赋值的方式)。
不改变源数据 添加参数inplace = True改变源数据
网友评论