import pandas as pd
import numpy as np
汇总与计算描述统计
Series
在describe中,count为非NaN的数量,mean为平均值,std为标准差
DataFrame
describe汇总统计方法无axis参数
统计方法默认axis=0纵向统计,默认skipna=True排除缺失值,可指定axis=1横向统计,skipna=False统计缺失值
>>> sr = pd.Series([1.6, np.nan, 45, -3])
>>> sr.mean()
14.533333333333333
>>> sr.mean(skipna=False)
nan
对于非数值型数据,describe产生另一种汇总统计
>> sr = pd.Serise(list('kaigva;rlkgjaworpiy'))
>>> sr.describe()
count 19 # 非NaN数量
unique 13 # 唯一值数量
top a # 最高频元素
freq 3 # 最高频次数
dtype: object
唯一值
seriesObj.unique() # dataframe无此方法
unique按值的发现顺序返回,结果是未排序的
值计数
pd.value_counts(obj, sort=False)
用于series
serise默认不计算缺失值
升序排列,设置参数 ascending = True
想要得出计数占比,可以加参数 normalize=True
用于dataframe
dataframe计数时,没有对应值的部分会填充NaN
成员判断
obj.isin()
网友评论