1. 基本统计分析函数
- data.describe()
综合分析,计算平均值,标准差,最大值,最小值,各种分位数
单个统计函数
- sum()
- mean()
- mad() : mean absolute deviation
- median()
- min()
- max()
- mode()
- abs()
- prod()
- std()
- var() : unbiased variance
- idxmax() : compute the index labels with the maximum
- idxmim() : compute the index labels of the minimum
(注意:在numpy当中是argmax和argmin)
累计统计分析函数
- cumsum() :计算前n个的和
- cummax():计算前n个的最大值
- cummin() :计算前n哥的最小值
- cumprod() :计算前n个的积
2. 画图
- data.plot()
详见官方API reference
3. 逻辑与算术运算
- 使用<, >等进行筛选
data[data['p_change']>2]
- 使用|, &完成复合的逻辑
data[(data['p_change'] > 2) & (data['open'] > 15)]
-
使用data.query()完成复合逻辑运算
data.query("p_change > 2 & open > 15")
- isin()
判断值是否存在,决定是否保留
- 算术运算:.sub/.add
#加上具体的一个数字
data['open'].add(1)
#筛选两列的差值
close = data['close']
open1=data['open']
data['a_new_column']=close.sub(open1)
data([['open', 'close']].apply(lambda x:x.max() - x.min(), axis = 0)
4. 文件读取
- pandas.read_csv(filepath, sep =',' , delimiter = None, index_col)
usecols: 指定读取的列名
- DataFrame.to_csv(path, sep = ',', header = True, index_label = None, mode = 'w', encoding = None)
header:是否写进列索引值 True/False
index:是否写进行索引 True/False
mode:‘w' 重写 ’a' 追加
- pandas.read_hdf(path, key = None, **kwargs)
从h5文件当中读取数据
key:读取的建
mode:打开文件的模式
return:Theselected object
- a.to_hdf("./test.h5", key='x')
h5文件是一种设计用于存储和组织大量数据的文件格式,比csv快,占的内存小。而且是跨平台的,可以轻松迁移到hadoop上面。一个h5文件可以放入多个key,来实现三维结构。将不同指标存储在不同文件当中
网友评论