使用pandas的groupby()能够对数据进行分组并聚合信息聚合,或分组进行数据转换,相关文档,类似数据库的groupby
使用pd的cut()可以切分将数据切分为组,可以将某一列按照一定的区间去切分,相关文档
可以使用query()来筛选需要的数据相关文档,下面是一个例子
# selecting malignant records in cancer data
df_m = df[df['diagnosis'] == 'M']
df_m = df.query('diagnosis == "M"')
# selecting records of people making over $50K
df_a = df[df['income'] == ' >50K']
df_a = df.query('income == " >50K"')
统计分析用到的函数
d1.count() #非空元素计算
d1.min() #最小值
d1.max() #最大值
d1.idxmin() #最小值的位置,类似于R中的which.min函数
d1.idxmax() #最大值的位置,类似于R中的which.max函数
d1.quantile(0.1) #10%分位数
d1.sum() #求和
d1.mean() #均值
d1.median() #中位数
d1.mode() #众数
d1.var() #方差
d1.std() #标准差
d1.mad() #平均绝对偏差
d1.skew() #偏度
d1.kurt() #峰度
d1.describe() #一次性输出多个描述性统计指标
可以使用 seaborn 做出美观的数据可视化图表。这里有一些很棒的示例
一些图表样式pandas无法实现,可以引入matplotlib的pyplot来辅助
标准导入方式import matplotlib.pyplot as plt
网友评论