通过汇总来分析结果

作者: Vekaco | 来源:发表于2020-04-14 16:56 被阅读0次

    Elasticsearch 汇总聚合功能使得你可以获得搜索结果的元数据,比如“有多少账户持有者是在得克萨斯的?”或者“青年账户的平均余额是多少?”。 你可以在一个请求里完成搜索文档,过滤,使用聚合分析结果的功能。

    例如,下面这个请求通过terms聚合来讲所有bank索引中的账户按照state来进行分组,并且按照降序的方式来现实账户最多的10个states。

    GET /bank/_search
    {
      "size": 0
      , "aggs": {
        "group_by_state": {
          "terms": {
            "field": "state.keyword",
            "size": 10
          }
        }
      }
    }
    

    在应答数据中buckets节点下是state的域值。 doc_count显示的是每个state下的账户数。 比如,你可以看到在ID(Idaho)有27个账户。由于请求中size=0,所以返回的数据中只包含聚合的结果。

    {
      "took" : 205,
      "timed_out" : false,
      "_shards" : {
        "total" : 1,
        "successful" : 1,
        "skipped" : 0,
        "failed" : 0
      },
      "hits" : {
        "total" : {
          "value" : 1000,
          "relation" : "eq"
        },
        "max_score" : null,
        "hits" : [ ]
      },
      "aggregations" : {
        "group_by_state" : {
          "doc_count_error_upper_bound" : 0,
          "sum_other_doc_count" : 743,
          "buckets" : [
            {
              "key" : "TX",
              "doc_count" : 30
            },
            {
              "key" : "MD",
              "doc_count" : 28
            },
            {
              "key" : "ID",
              "doc_count" : 27
            },
            {
              "key" : "AL",
              "doc_count" : 25
            },
            {
              "key" : "ME",
              "doc_count" : 25
            },
            {
              "key" : "TN",
              "doc_count" : 25
            },
            {
              "key" : "WY",
              "doc_count" : 25
            },
            {
              "key" : "DC",
              "doc_count" : 24
            },
            {
              "key" : "MA",
              "doc_count" : 24
            },
            {
              "key" : "ND",
              "doc_count" : 24
            }
          ]
        }
      }
    }
    

    你还可以通过整合多个聚合条件来构建更加复杂的数据结果统计。比如,下面这个请求在上层group_by_state基础上嵌套了一个avg聚合参数来计算每个周的账户余额平均值。

    GET /bank/_search
    {
      "size": 0,
      "aggs": {
        "group_by_state": {
          "terms": {
            "field": "state.keyword",
            "size": 10
          },
          "aggs": {
            "average_balance": {
              "avg": {
                "field": "balance"
              }
            }
          }
        }
      }
    }
    

    除了通过账户数量来进行排序外, 你还可以通过terms中指定排序的标准为嵌套聚合的结果,即在terms节点中指定按照每个state的账户平均值进行排序。

    GET /bank/_search
    {
      "size": 0,
      "aggs": {
        "group_by_state": {
          "terms": {
            "field": "state.keyword",
            "size": 10,
            "order": {
              "average_balance": "desc"
            }
          },
          "aggs": {
            "average_balance": {
              "avg": {
                "field": "balance"
              }
            }
          }
        }
      }
    }
    

    除了这些基本的存储和指标聚合外, Elasticsearch还提供了特殊的聚合方式在多个域上操作或者分析特殊类型的数据,比如日期,ip地址,geo数据(地理位置数据)。 你还可以将单个聚合的结果放入聚合管道来进行进一步分析。

    聚合提供的核心分析能力可以用来更高级别的特性使用,比如用机器学习来监测异常。

    相关文章

      网友评论

        本文标题:通过汇总来分析结果

        本文链接:https://www.haomeiwen.com/subject/xhczmhtx.html