描述统计学、离群值和坐标轴范围
在创建图形和探索数据时,确保注意基本描述统计学传达的信息之外的信息。注意数据的各个方面,例如峰的数量和偏态,并注意数据中是否有任何离群值以便进一步研究。
关于离群值,你可能需要更改坐标轴的范围或标尺,仔细观察数据的底层规律。此页面介绍了坐标轴范围以及标尺和转换。为了更改直方图的坐标轴范围,你可以在代码中调用 Matplotlib xlim
。该函数接受一个包含两个数字的元组,用于指定图形的左右范围。此外,可以在 xlim
函数中传入两个数字参数,效果一样。
plt.figure(figsize = [10, 5])
# histogram on left: full data
plt.subplot(1, 2, 1)
bin_edges = np.arange(0, df['skew_var'].max()+2.5, 2.5)
plt.hist(data = df, x = 'skew_var', bins = bin_edges)
# histogram on right: focus in on bulk of data < 35
plt.subplot(1, 2, 2)
bin_edges = np.arange(0, 35+1, 1)
plt.hist(data = df, x = 'skew_var', bins = bin_edges)
plt.xlim(0, 35) # could also be called as plt.xlim((0, 35))

在上述一般示例中,我们可能希望比较数据点的值小于 35 和值大于 35 的其他变量。对于任何值集中在前一组 (<35) 的变量,设定坐标轴范围可以重点关注该范围的数据点,无需创建新的 DataFrame 以便过滤属于后一组 (>35) 的数据点。
网友评论