49_深入聚合数据分析_cardinality算法之优化内存开销

作者: 小山居 | 来源:发表于2020-02-28 21:10 被阅读0次

49_深入聚合数据分析_cardinality算法之优化内存开销
48_深入聚合数据分析_cardinality去重以及统计每月销
47_深入聚合数据分析_易并行聚合算法，三角选择原则，近似聚合算
55_深入聚合数据分析_fielddata内存控制以及circu
High cardinality下对持续写入的Elasticse
33、三角选择原则与近似聚合算法，cardinality去重算
58_深入聚合数据分析_海量bucket优化机制：从深度优先到广
39_深入聚合数据分析_实战date hitogram之统计每月
56_深入聚合数据分析_fielddata filter的细粒度
52_深入聚合数据分析_基于doc value正排索引的聚合内部

49_深入聚合数据分析_cardinality算法之优化内存开销以及HLL算法

cardinality，count(distinct)，5%的错误率，性能在100ms左右

1、precision_threshold优化准确率和内存开销

GET /tvs/sales/_search
{
    "size" : 0,
    "aggs" : {
        "distinct_brand" : {
            "cardinality" : {
              "field" : "brand",
              "precision_threshold" : 100 
            }
        }
    }
}

brand去重，如果brand的unique value，在100个以内，小米，长虹，三星，TCL，HTL。。。

在多少个unique value以内，cardinality，几乎保证100%准确
cardinality算法，会占用precision_threshold * 8 byte 内存消耗，100 * 8 = 800个字节
占用内存很小。。。而且unique value如果的确在值以内，那么可以确保100%准确
100，数百万的unique value，错误率在5%以内

precision_threshold，值设置的越大，占用内存越大，1000 * 8 = 8000 / 1000 = 8KB，可以确保更多unique value的场景下，100%的准确

field，去重，count，这时候，unique value，10000，precision_threshold=10000，10000 * 8 = 80000个byte，80KB

2、HyperLogLog++ (HLL)算法性能优化

cardinality底层算法：HLL算法，HLL算法的性能

会对所有的uqniue value取hash值，通过hash值近似去求distcint count，误差

默认情况下，发送一个cardinality请求的时候，会动态地对所有的field value，取hash值; 将取hash值的操作，前移到建立索引的时候

PUT /tvs/
{
  "mappings": {
    "sales": {
      "properties": {
        "brand": {
          "type": "text",
          "fields": {
            "hash": {
              "type": "murmur3" 
            }
          }
        }
      }
    }
  }
}

将取hash值的操作，前移到建立索引的时候,.再来进行cardinality聚合查询的时候,brand.hash 节省时间.

GET /tvs/sales/_search
{
    "size" : 0,
    "aggs" : {
        "distinct_brand" : {
            "cardinality" : {
              "field" : "brand.hash",
              "precision_threshold" : 100 
            }
        }
    }
}

网友评论

java从0到架构师

本文标题：49_深入聚合数据分析_cardinality算法之优化内存开销

本文链接：https://www.haomeiwen.com/subject/fwirhhtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

49_深入聚合数据分析_cardinality算法之优化内存开销