01 日常需求
今天我们继续对Python中pandas包进行学习。
在我们的日常生活中,常常会出现一些需求,比如:
各品种冬枣的平均大小是多少?
各班级学生的语文最高分是多少?
各品牌手机的最高最低价格是多少?
等等
在这些需求中,都出现了分组统计的影子,对于小数据量,我们可以手动计算或者进入excel表计算,但对于大数据量的分组运算,就需要Python出马了。
02 出镜率极高的groupby
在Python中,分组聚合函数是groupby,它的执行原理很简单:
- 分拆,将数据按照规定的列进行拆分,比如按照班级名拆分
- 应用,将拆分后的数据应用于某个指定函数,比如求平均值,这个函数可以是内置的,也可以是自定义的
- 汇总,将计算结果汇总在一起,作为最终结果
今天的练习主要针对groupby后的分组数据进行聚合,分为一下三点练习
- 调用内置函数,如min(), max() mean()
- 调用自定义函数,函数自定义好之后,使用agg()调用即可,可以调用多个函数,如agg([func1,func2]),func可以是内置的,内置时需要加引号,agg()只能针对一维数组
- 使用apply()可以调用更复杂的自定义函数,如排序、取前n个值等
03 练习代码
同样地,为了更好的排版和可视化效果,我将代码放在了github上,代码中详细讲解了groupby的运行规则和具体使用方法,欢迎朋友们点击查看交流。
练习代码
推荐电脑端查看哦
网友评论