刚开始先补充一下上一节课拉下的东西 完成的仅有 第一章的第一节 剩下的第二节与第三节 赶紧补上
后续的两节 主要的是理解 pandas的两种数据格式 DataFrame 与 Series 这里的一个简单的认知 D是表格 S是键值对 都是一个二维的数据 简单的学习了对于表格的查询操作 主要的还是要多练练手 多完成几个有意义的项目
对于缺失值的处理
两种方法 dropna 与 fillna 主要的都是针对 np.nan这个值类型
image.png
删除np.nan 参数的类型 默认按照行进行处理 axis='columns' 按照列进行删除 删除的方式 默认的是任意一个
默认的类型都不在原表上进行操作
fillna 参数类型
替换值 将np.nan进行替换
传播非空值 method=''ffill' '
fillna参数.png
问题 image.png
自己感觉并不是所有的空值 都是np.nan的形式 自己也不知道那个更好一些
cut 与 qcut 对数据进行分箱(离散化)处理
参数有三个 分割的列明 分割的规则 分割后的标签
查看文本变量及其种类 df.values_counts()
df.unique() 查看名称
替换列名 replace 两个参数 替换谁 替换成什么
map 键值对 方式进行替换
利用正则表达式
网友评论