美文网首页DATA ANALYSIS PROCESS
Matplotlib和Seaborn之描述统计学、离群值和坐标轴

Matplotlib和Seaborn之描述统计学、离群值和坐标轴

作者: IntoTheVoid | 来源:发表于2020-04-23 13:38 被阅读0次

    描述统计学、离群值和坐标轴范围

    在创建图形和探索数据时,确保注意基本描述统计学传达的信息之外的信息。注意数据的各个方面,例如峰的数量和偏态,并注意数据中是否有任何离群值以便进一步研究。

    关于离群值,你可能需要更改坐标轴的范围或标尺,仔细观察数据的底层规律。此页面介绍了坐标轴范围以及标尺和转换。为了更改直方图的坐标轴范围,你可以在代码中调用 Matplotlib xlim。该函数接受一个包含两个数字的元组,用于指定图形的左右范围。此外,可以在 xlim 函数中传入两个数字参数,效果一样。

    plt.figure(figsize = [10, 5])
    
    # histogram on left: full data
    plt.subplot(1, 2, 1)
    bin_edges = np.arange(0, df['skew_var'].max()+2.5, 2.5)
    plt.hist(data = df, x = 'skew_var', bins = bin_edges)
    
    # histogram on right: focus in on bulk of data < 35
    plt.subplot(1, 2, 2)
    bin_edges = np.arange(0, 35+1, 1)
    plt.hist(data = df, x = 'skew_var', bins = bin_edges)
    plt.xlim(0, 35) # could also be called as plt.xlim((0, 35))
    
    
    image.png

    在上述一般示例中,我们可能希望比较数据点的值小于 35 和值大于 35 的其他变量。对于任何值集中在前一组 (<35) 的变量,设定坐标轴范围可以重点关注该范围的数据点,无需创建新的 DataFrame 以便过滤属于后一组 (>35) 的数据点。

    相关文章

      网友评论

        本文标题:Matplotlib和Seaborn之描述统计学、离群值和坐标轴

        本文链接:https://www.haomeiwen.com/subject/nrrnfqtx.html