# 基本统计特征函数,data 为DataFrame 或者 Series
# sum()
# mean()
# var() 样本方差
# std() 计算数据样本的标准差
# corr() Spearman(Person,kenall) 相关系数矩阵
# S1.corr(S2,method = 'pearson') --> S1 和 S2 均为Series
D = pd.DataFrame([range(1,8),range(2,9)])
# 第一行为1~7,第二行为2~8
D.corr(method = 'pearson')
S1 = D.loc[0] # 提取第一行
S2 = D.loc[1] # 提取第二行
S1.corr(S2,method = 'pearson')
# cov() 协方差矩阵 计算两个Series之间的协方差
import numpy as np
D = pd.DataFrame(np.random.randn(6.5)) # 产生6*5 随机矩阵
D.cov() #计算协方差矩阵
D[0].cov(D[1]) #计算第一列和第二类的协方差
# describe(percentiles = [0.2,0.4,0.6,0.8]) 计算 0.2 0.4 。。。分位数
# 拓展统计特征函数 Pandas
# 累积计算
# cumsum() 依次给出1,2,...,n个数的和
# cumprod() 依次给出1,2,...,n个数的积
# cummax() 依次给出1,2,...,n个数的最大值
# cummin() 依次给出1,2,...,n个数的最小值
# D 为DataFrame 或者 Series ,D.cumsum()
# 滚动计算
# rolling_sum() 计算样本数据量的总和(按列计算)
# rolling_mean() 数据样本的均值
# rolling_var() 计算数据样本的方差
# rolling_std() 计算数据样本的标准差
# rolling_corr() 计算数据样本的相关系数矩阵
# rolling_cov() 计算协方差矩阵
# 不是 D 为DataFrame 或者 Series 对象的方法
#使用方法为 pd.rolling_mean(D,k) -->意思是每K列计算一次均值
D = pd.Series(range(0,20)) # 构造Series
D.sort(ascending = True)
D.cumsum()
pd.rolling_sum(D,2) #依次对相邻两项求和
参考资料:《Python数据分析与挖掘实战》
网友评论