美文网首页数据分析解密大数据
小白进阶历程-直方图学习

小白进阶历程-直方图学习

作者: 嗯西西 | 来源:发表于2017-03-11 15:09 被阅读90次

相关文章

网友评论

  • TheTiger:你让我最欣赏的一点是良好的代码注释风格,这是大部分新手很难具备的,已经赢在起跑线上了。
    嗯西西: @泰阁志 好,👌
    TheTiger:@Fgufsett 图片发到小密圈吧,给你加精华。
    嗯西西: @泰阁志 谢谢虎哥鼓励😊
  • 鱼心DrFish:角度独特,对bins的分析很棒!
    不过我有一点疑问,为什么你觉得,直方图光滑没有锯齿就是好的呢!也许数据本身就是在某个地方,有一个奇异值呢?
    另外,可以想一想,能否根据样本总量,估算一个大概合适的bins数值?
    嗯西西: @鱼心fishstar 哈哈,确实说的多了😂
    鱼心DrFish:@Fgufsett 史上最长评论!哈哈
    关于bin size 的选择,可参考 Freedman–Diaconis Rule
    嗯西西: @鱼心fishstar 哈哈哈,谢谢你!这两个问题很有意思,说一下我的见解!对于第一个问题:
    (1)不是说直方图光滑没有锯齿就是好,这个好也是相对的。直方图出现锯齿情况,因为直方图每一个柱表示的是落入该区间内的数据的个数(或频率),即意味着相邻区间落入数据的个数差异比较大(对于我观测整个数据的分布来说不好,但如果你要细看在每个区间上的数据分布,当然细分组数多了较好),但并不意味着该数为奇异值。ps.这时候如果我稍微将区间扩大一些(即减小组数),就可以将消除这种现象。
    (2)因为直方图主要是用来观测数据集的整体分布,直方图属于数据可视化,即在数据可视化之前,应该对数据已经预处理了,所以奇异值在绘直方图之前应该已经被处理了(当然这两个数据集我并没有进行数据预处理)。
    (3)如果数据集中有奇异值,并且没有在预处理时被剔除,因为奇异值在整个数据集中是与众不同的,所以该值相对于大部分数据来说一般不是过于大就是过于小,不管是值过大还是过小,都只会出现在直方图两侧,不会在中间出现,而锯齿是直方图中间部分出现柱忽高忽低的情况,所以这两者我觉得没有一定的关系。
    关于第二个问题,目前直方图组数是根据数据量大小给一个范围,一般分为5-20组,具体组数没有固定的。这也是一个好问题,不过我目前没有想到合适的方法😂。
    这都是我的见解,有不对的地方还请见谅,欢迎随时交流😊

本文标题:小白进阶历程-直方图学习

本文链接:https://www.haomeiwen.com/subject/efoagttx.html