pandas对象拥有一组常用的数学和统计方法。
它们大部分都属于约简和汇总统计,用于从Series中提取单个值(如sum或mean)或从DataFrame的行或列中提取一个Series。跟对应的NumPy数组方法相比,它们都是基于没有缺失数据的假设而构建的。

1.png
调用DataFrame的sum方法将会返回一个包含各列和的Series:

2.png
如果传入轴号axis=1将会统计各行的和:

3.png
使用mean函数求各行的平均值时,NA值会被自动排除,除非整行或整列都是NA:

4.png
在上面的例子中a行有一个NA值,无法取平均值,可结果直接排除NA值显示结果为1.4,明显这结果不是我们想要的,通过skipna选项可以禁用该功能:

5.png
约简方法的常用选项如下:

6.png
有些方法(如idxmin何idxmax)返回的是间接统计(比如达到最小值或最大值的索引):

7.png
累计型:

8.png
describe用于一次性产生多个汇总统计:

9.png
非数值型describe汇总统计:

10.png
下面列出了所有与描述统计相关的方法:

11.png

12.png
网友评论