美文网首页
Pandas3——统计,运算,文件读取

Pandas3——统计,运算,文件读取

作者: 蜘蛛鱼 | 来源:发表于2020-03-10 13:03 被阅读0次

    1. 基本统计分析函数

    • data.describe()
      综合分析,计算平均值,标准差,最大值,最小值,各种分位数
    单个统计函数
    • sum()
    • mean()
    • mad() : mean absolute deviation
    • median()
    • min()
    • max()
    • mode()
    • abs()
    • prod()
    • std()
    • var() : unbiased variance
    • idxmax() : compute the index labels with the maximum
    • idxmim() : compute the index labels of the minimum
      (注意:在numpy当中是argmax和argmin)
    累计统计分析函数
    • cumsum() :计算前n个的和
    • cummax():计算前n个的最大值
    • cummin() :计算前n哥的最小值
    • cumprod() :计算前n个的积

    2. 画图

    • data.plot()
      详见官方API reference

    3. 逻辑与算术运算

    • 使用<, >等进行筛选
      data[data['p_change']>2]
    • 使用|, &完成复合的逻辑
      data[(data['p_change'] > 2) & (data['open'] > 15)]
    • 使用data.query()完成复合逻辑运算
      data.query("p_cha
      nge > 2 & open > 15")
    • isin()
      判断值是否存在,决定是否保留
    • 算术运算:.sub/.add
    #加上具体的一个数字
    data['open'].add(1)
    #筛选两列的差值
    close = data['close']
    open1=data['open']
    data['a_new_column']=close.sub(open1)
    
    • .apply() : 自定义运算函数
    data([['open', 'close']].apply(lambda x:x.max() - x.min(), axis = 0)
    

    4. 文件读取

    • pandas.read_csv(filepath, sep =',' , delimiter = None, index_col)
      usecols: 指定读取的列名
    • DataFrame.to_csv(path, sep = ',', header = True, index_label = None, mode = 'w', encoding = None)
      header:是否写进列索引值 True/False
      index:是否写进行索引 True/False
      mode:‘w' 重写 ’a' 追加
    • pandas.read_hdf(path, key = None, **kwargs)
      从h5文件当中读取数据
      key:读取的建
      mode:打开文件的模式
      return:Theselected object
    • a.to_hdf("./test.h5", key='x')
      h5文件是一种设计用于存储和组织大量数据的文件格式,比csv快,占的内存小。而且是跨平台的,可以轻松迁移到hadoop上面。一个h5文件可以放入多个key,来实现三维结构。将不同指标存储在不同文件当中

    相关文章

      网友评论

          本文标题:Pandas3——统计,运算,文件读取

          本文链接:https://www.haomeiwen.com/subject/smqbdhtx.html