上一篇文章带大家一起了解了Pandas库中的DataFrames的多级索引,本文是Python大数据与机器学习系列文章中的第13篇,将带大家一起了解一下Pandas的小技巧——数据补全。在这里还是要推荐下我自己建的Python开发学习群:483546416,群里都是学Python开发的,如果你正在学习Python ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有Python软件开发相关的),包括我自己整理的一份2018最新的Python进阶资料和高级开发教程,欢迎进阶中和进想深入Python的小伙伴
实战练习
在Jupyter Notebook上执行以下代码:
import numpy as np
import pandas as pd
df = pd.DataFrame({'A':[1,2,np.nan],
'B':[5,np.nan,np.nan],
'C':[1,2,3]})
df
删除具有控制的行
df.dropna()
删除掉含有空值的列
df.dropna(axis=1)
删除掉空值数大于等于2的行。
df.dropna(thresh=2)
将某个值填充到空值中。
df.fillna(value='FILL VALUE')
还可以将A列的平均值填充到空值中。
df['A'].fillna(value=df['A'].mean())
进度介绍
本系列文章共分为26个部分目前已经进行到了第6部分,所有内容计划如下:
预热
环境搭建
Jupyter教程
Python速成
Python数据分析,NumPy库的使用
Python数据分析,Pandas库的使用
Python数据分析,Pandas库练习
Python数据可视化,Matplotlib
Python数据可视化,Seaborn
Python数据可视化,Pandas内建数据可视化
Python数据可视化,Plotly和Cufflinks
Python数据可视化,Geographical Plotting
数据 Capstone 项目
机器学习介绍
线性回归
交叉验证与偏方差
逻辑回归算法
k-近邻算法
决策树与随机森林
支持向量机
k-means聚类
主成分分析
推荐系统
自然语言处理(NLP)
Python大数据与Spark
神经网络(NN)与深度学习(DL)
网友评论