今天来和大家学习pandas中几个重要的函数,它们分别是:
apply
apply函数利用自定义函数对数据进行计算从而组成新的序列或表格。
利用匿名函数计算每一列的最大值减去最小值,返回一个序列(Series)。
可以把axis的值设置为1,从而计算每一行的最大值减去最小值。
concat
concat函数的作用是将两个序列或表格合并。
把两个序列进行堆叠操作。
为了将索引值连续排序,可以设置ignore_index的值为True,结果更加美观。
为每一个序列编号,当然,由于不同属一个序列,这时候ignore_index的值就不能设置为True了。
利用concat将两个表格进行堆叠。
将含有不同列名的两个表格合并,因为此时的join为默认值outer,可以理解为数学上的并,或者更直观的理解是,df1中的"丙"列为缺失值,df2中的"乙"列为缺失值,故而两个表格合并后的效果如下。
将join参数设置为inner,可以理解为两个表格的交。
将axis设置为1,即沿着列堆叠。
因为两个表格的行索引均为默认值,所以存在冲突,如果把verify_integrity设置为True则报错,当然,它的默认值为False,所以这个不用担心。
groupby
顾名思义,groupby函数就是用来分组的。
为了演示方便,首先创建一个表格。
以性别为基准,计算工资和年龄的总和,如果存在某一列不是数值类型,则忽略计算该列,不会报错。
以性别和年龄为基准,计算工资的平均值。
append
看名字就知道了吧,这货就是用来添加序列或表格的,但是注意,它返回的是一个副本,也就是说原来的表格没有发生改变。
继续沿用上次的表格。
把第二行添加到表格末尾。
把第二三行添加到表格末尾。
merge
merge函数也是用来合并表格的,不过它和concat不太一样。concat只是机械地堆叠在一起,而merge更像是把两个表格柔和在一起。
以'A'为基准,将两个表格柔和在一起,注意参数on的值必须是两个表格都存在的。
concat函数的结果。
另一种用法。
如果"A"中存在不同的值,则舍弃不同的值,只取公共部分。
上面的结果归根结底是因为参数how取默认值inner,即交集,如果将其设置为outer,则相当于并集。
除此之外,how的参数还可以设置为"left"(以第一个表格为标准,第二个表格中相对于基准on的参数不存在的值取缺失值)和"right"(以第二个表格为标准,第一个表格中相对于基准on的参数不存在的值取缺失值)
pivot_table
pivot_table函数的作用是创建数据透视表。
为了演示方便,我创建了以下的表格。
将身高和体重作为要处理的数据,将班级和性别作为行索引,方法为计算平均值。
计算身高的平均值和体重的总和。
其它
计算各元素的个数。
将字符串连接起来,注意此时序列中的值只能是字符串类型。
将字符串改为大写。
网友评论