美文网首页观点
数据分析漫谈

数据分析漫谈

作者: 祝威廉 | 来源:发表于2017-04-20 23:52 被阅读698次

    前言

    今天突然想了想这事,后面正好也在群里有了讨论。所以这篇文章大体是做个总结。

    夜间漫谈

    目前来看,从数据本身进行各种转换和查询,大致分成三个类型:

    1. 明细查询
    2. 聚合统计
    3. 关键字检索

    明细查询大体是横向行的查询,聚合统计依托于列的纵向查询。关键字检索则是有别于1,2的一种数据获取分析方式,作为人类三大信息来源之一的文字,关键字检索是一个非常重要的从海量数据获取自己想要的数据的方式。就目前我的感觉,人们通过关键字获取到数据集之后可以在走1,2进一步对数据做处理。

    目前ElasticSearch可以覆盖三类了,但是聚合统计还很弱,而且不支持SQL。CarbonData覆盖前两类,Parquet则只有第二类。

    而就目前的使用热度而言,理论上该是 ES> CarbonData > Parquet。 实际情况是,ElasticSearch当之无愧是王者,其次是Parquet/ORC。CarbonData 则是新起之秀。

    从对时间响应的要求而言,又可以分成两种:

    1. 传统的BI报表以预计算为主,偏离线,对时间响应要求并不高。
    2. 交互式查询则更适合数据的探索,如果够快,也可以作为BI报表的后端。

    交互式查询,我之前写过一篇内容,大体是说如何秒级,甚至是毫秒级对海量数据进行查询是我们一直追求的一个梦想。

    相关文章

      网友评论

      • 分裂四人组:es on spark的应用场景是什么? 感觉这么用的不多
      • 4b88da88c15a:carbondata的坑我们算是放弃了,填不上:smiley:
        祝威廉:@分裂四人组 有的。如果时间允许,会先设计一个外部索引。
        分裂四人组:carbondata有做全文索引的计划嘛?
        祝威廉:@无西 😀 再过一段时间,加上全文检索,然后再等一段时间更成熟些,就好了。
      • 双双_618e:想看祝老师写诗......
        祝威廉:@双双_618e :joy_cat::joy_cat::joy_cat:

      本文标题:数据分析漫谈

      本文链接:https://www.haomeiwen.com/subject/zvyrzttx.html