Elasticsearch实战第七章使用聚集来探索数据

作者: kaiker | 来源:发表于2021-11-29 11:54 被阅读0次

Elasticsearch实战第七章使用聚集来探索数据
Elasticsearch：ES聚合操作，基于Kibana和Ja
京东T5大佬呕心沥血编写出《Spring Data实战》书籍
Elasticsearch专题篇——搜索
[Elasticsearch实战] snapshot 探索
机器学习实战-数据探索(变量变换、生成)
Elasticsearch SQL
机器学习实战-数据探索(异常值处理)
Es原理分析
Python数据可视化day0|安装matplotlib

聚集加载了和搜索相匹配的文档，并且完成了各种计算。主要有两个类别，度量，一组文档的统计分析；桶，将匹配的文档切分为一个或多个容器，然后告知每个桶里的文档数量。

默认情况下，在查询结果上运行聚集。

1、理解聚集的具体结构

聚集请求的结构

curl 'localhost:9200/get-together/group/_search?pretty' -d'{
  "aggregations":{
    "top_tags":{ // 聚集的名字
      "terms":{ // 在数据字段上聚集
        "field":"tags.verbatim"
      }
    }
  }
}'

查询结果上的聚集

curl 'localhost:9200/get-together/group/_search?pretty' -d'{
  "query":{
    "match":{
      "location":"Denver"
    }
  }
  "aggregations":{
    "top_tags":{ // 聚集的名字
      "terms":{ // 在数据字段上聚集
        "field":"tags.verbatim"
      }
    }
  }
}'

过滤器和聚集

也有后过滤器，即使和后过滤器不匹配，仍然会被聚集操作操作计算在内

过滤器和聚集组合使用

2、度量聚集

统计数据

在script放入一小段代码，为每篇文档返回一个数组

curl 'localhost:9200/get-together/group/_search?pretty&search_type=count' -d'{
  "aggregations":{
    "attendees_avg":{ 
      "avg":{ 
        "script":"doc['"'attendees'"'].values.length"
      }
    }
  }
}'

高级统计

使用extended_stats聚集来获取数值字段的平方值、方差和标准差

curl 'localhost:9200/get-together/group/_search?pretty&search_type=count' -d'{
  "aggregations":{
    "attendees_extended_stats":{ 
      "extended_stats":{ 
        "script":"doc['"'attendees'"'].values.length"
      }
    }
  }
}'

近似统计

计算百分位
基数（cardinality）如果求唯一值，内存很可能缓存不了这么多数据，使用HLL算法做近似计算

3、多桶型聚集

多桶型聚集是将文档放入不同桶中，就像根据标签对文档进行分组

词条聚集

curl 'localhost:9200/get-together/group/_search?pretty&search_type=count' -d'{
  "aggregations":{
    "tags":{ 
      "terms":{ 
        "field":"tags.verbatim",
        "order":{
          "_term":"asc"
        }
      }
    }
  }
}'

如果按照度量聚集统计值来排序，由于是按照节点统计，取每个节点的前几个，最后汇总再取，可能会丢东西

取前两位，每个节店取前3个

默认情况下，ES使用一次处理来进行聚集，但如果有很多桶和子聚集，将会消耗大量的时间和内存。二次处理可以首先创建顶层聚集的桶，然后缓存排名靠前的X个结果，只对前X个进行子聚集计算。

range聚集

curl 'localhost:9200/get-together/group/_search?pretty&search_type=count' -d'{
  "aggregations":{
    "attendees_breakdown":{
      "range":{
        "script":"doc['"'attendees'"'].values.length",
        "ranges":[
          {"to":4},
          {"from":4, "to":6},
          {"from":6}
        ]
      }
    }
  }
}'

日期也有单独的range聚集写法

curl 'localhost:9200/get-together/group/_search?pretty&search_type=count' -d'{
  "aggregations":{
    "attendees_breakdown":{
      "date_range":{
        "field":"date",
        "format":"YYYY.MM"
        "ranges":[
          {"to":2013.07},
          {"from":2013.07}
        ]
      }
    }
  }
}'

直方图聚集

4、嵌套聚集

多桶聚集通常是开始聚集的起点。

terms聚集中嵌套data_histgram

嵌套多桶聚集

curl 'localhost:9200/get-together/group/_search?pretty&search_type=count' -d'{
  "aggregations":{
    "top_tags":{
      "terms":{
        "field":"tag.verbatim"
      },
      "aggregations":{
        "groups_per_month":{
          "date_histogram":{
            "field":"created_on",
            "interval":"1M"
          }
        }
      }
    }
  }
}'

通过嵌套聚集获得结果分组

按照特定的分类将排名靠前的结果进行分组

结果分组

单桶聚集

如果不希望在查询结果上聚集，可以使用单桶聚集
global聚集，把所有文档都进行聚集

curl 'localhost:9200/get-together/group/_search?pretty&search_type=count' -d'{
  "query":{
    "match":{
      "name":"elasticsearch"
    }
  },
  "aggregations":{
    "all_documents":{
      "global":{
      },
      "aggregations":{
        "top_tags":{
          "terms":{
            "field":"tags.verbatim"
          }
        }
      }
    }
  }
}'

filter聚集，限制聚集统计的文档，不影响查询结果

curl 'localhost:9200/get-together/group/_search?pretty&search_type=count' -d'{
  "query":{
    "match":{
      "name":"elasticsearch"
    }
  },
  "aggregations":{
    "since_july":{
      "filter":{
        "range":{
          "date":{"gt":"2013-07-01T00:00"}
        }
      },
      "aggregations":{
        "description_cloud":{
          "terms":{
            "field":"description"
          }
        }
      }
    }
  }
}'

missing聚集，如果有字段有缺失，可以使用missing聚集进行统计

网友评论

本文标题：Elasticsearch实战第七章使用聚集来探索数据

本文链接：https://www.haomeiwen.com/subject/azxhxrtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Elasticsearch实战第七章使用聚集来探索数据

1、理解聚集的具体结构

聚集请求的结构

查询结果上的聚集

过滤器和聚集

2、度量聚集

统计数据

高级统计

近似统计

3、多桶型聚集

词条聚集

range聚集

直方图聚集

4、嵌套聚集

嵌套多桶聚集

通过嵌套聚集获得结果分组

单桶聚集

相关文章

Elasticsearch实战第七章使用聚集来探索数据

Elasticsearch：ES聚合操作，基于Kibana和Ja

京东T5大佬呕心沥血编写出《Spring Data实战》书籍

Elasticsearch专题篇——搜索

[Elasticsearch实战] snapshot 探索

机器学习实战-数据探索(变量变换、生成)

Elasticsearch SQL

机器学习实战-数据探索(异常值处理)

Es原理分析

Python数据可视化day0|安装matplotlib

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Elasticsearch实战 第七章 使用聚集来探索数据

1、理解聚集的具体结构

聚集请求的结构

查询结果上的聚集

过滤器和聚集

2、度量聚集

统计数据

高级统计

近似统计

3、多桶型聚集

词条聚集

range聚集

直方图聚集

4、嵌套聚集

嵌套多桶聚集

通过嵌套聚集获得结果分组

单桶聚集

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Elasticsearch实战第七章使用聚集来探索数据