美文网首页
pandas库学习(九) 汇总和计算描述统计

pandas库学习(九) 汇总和计算描述统计

作者: 3ni | 来源:发表于2018-11-06 20:25 被阅读0次

    提取完数据后,通常要对数据进行汇总,统计和计算,看看pandas有哪些操作。
    df = DataFrame([[1.4,np.nan],[7.1,-4.5],[np.nan,np.nan],[0.75,-1.3]],index=['a','b','c','d'],columns=['one','two'])

        one  two
    a  1.40  NaN
    b  7.10 -4.5
    c   NaN  NaN
    d  0.75 -1.3
    

    求和操作,会自动忽略为NaN的值:
    df.sum()

    one    9.25
    two   -5.80
    dtype: float64
    

    也可以横向相加,比如:
    df.sum(axis=1)

    a    1.40
    b    2.60
    c    0.00
    d   -0.55
    dtype: float64
    

    求平均值,会自动忽略NaN,但我们也可以手动设置不忽略
    df.mean(axis=1,skipna=False)

    a      NaN
    b    1.300
    c      NaN
    d   -0.275
    dtype: float64
    

    可以一次性返回多个统计数据:
    df.describe()

                one       two
    count  3.000000  2.000000
    mean   3.083333 -2.900000
    std    3.493685  2.262742
    min    0.750000 -4.500000
    25%    1.075000 -3.700000
    50%    1.400000 -2.900000
    75%    4.250000 -2.100000
    max    7.100000 -1.300000
    

    如果不是数值类型会返回另一种结果
    obj = Series(['a','a','b','c']*4)

    0     a
    1     a
    2     b
    3     c
    4     a
    5     a
    6     b
    7     c
    8     a
    9     a
    10    b
    11    c
    12    a
    13    a
    14    b
    15    c
    dtype: object
    

    obj.describe()

    count     16
    unique     3
    top        a
    freq       8
    dtype: object
    

    总结一波:
    count 非NA值的数量
    describe 针对Series或各DataFrame列计算汇总统计
    min,max 计算最小值和最大值
    argmin,argmax 计算能够获取到最小值和最大值的索引位置(整数)
    idxmin,idxmax 计算能够获取到最小值和最大值的索引值
    quantile 计算样本的分位数(0到 1)
    sum 值的总和
    mean 值的平均数
    media 值的算术中位数(50%分位数)
    mad 根据平均值计算平均绝对离差
    var 样本值的方差
    std 样本值的标准差
    skew 样本值的偏度(三阶矩)
    kurt 样本值的峰度(四阶矩)
    cumsum 样本值的累计和
    cummin,cummax 样本值的累计最大值和累计最小
    cumprod 样本值的累计积
    diff 计算一阶差分(对时间序列很有用)
    pct_change 计算百分数变化

    相关文章

      网友评论

          本文标题:pandas库学习(九) 汇总和计算描述统计

          本文链接:https://www.haomeiwen.com/subject/tcsdxqtx.html