注:文章第二部分,pandas进行数据简单处理来自刘顺祥老师公众号:
数据分析1480(微信号:lsxxx2011)
数据框与文件读取部分
数据读取--from MySQL,CSV文件
通过MySQL读取
通过csv文件读取
数据集的描述describe()
不同的describe参数,返回不同的结果
借助pandas进行数据预处理,包括:
1、数据集变量与观测的筛选
2、变量重命名
3、数据类型的变换
4、排序
5、重复观测的删除
6、数据集的抽样
一、数据筛选
导入iris数据1、pandas 取数两种方法,名称索引和点取法
名称索引和点取法2、一个变量的观测筛选
查看setosa种类的前10行3、两个变量的观测筛选
4、两个变量的观测筛选并筛选部分变量
iloc方法5、变量删除
需要注意的是,该函数默认的axis=0,表示删除行观测,如果需要删除列,就要将asix设置为1。记住,此时虽然删除了两个变量,但iris数据集本身是没有变化的,如果你需要改变iris数据集,需要设置inplace为True。
二、变量重命名,rename + 字典
三、数据类型转化,astype函数 + 字典方法
四、数据集的排序
五、数据去重
duplicated函数,检查数据集是否重复,如果重复返回真
drop_duplicates函数:对数据集的重复观测进行删除, 如果需要制定某些变量的重复性检查,可以往subset参数传递变量
建立数据集 检验数据是否重复,删除重复值
六、抽样
先来看一下sample函数的几个重要参数:
sample(n=None, frac=None, replace=False, weights=None, random_state=None)
n:指定抽样的个数
frac:指定抽样的比例
replace:指定是否有放回的抽样,默认为无放回抽样
weights:指定每个样本被抽中的概率,默认每个样本抽中的概率相等
random_state:指定抽样的随机种子,默认无固定的随机种子,即每次抽样的结果都不一样
网友评论