美文网首页ElasticSearch入门elasticsearch玩转大数据
五十七、Elasticsearch初识搜索引擎-scoll技术滚

五十七、Elasticsearch初识搜索引擎-scoll技术滚

作者: 编程界的小学生 | 来源:发表于2017-07-11 17:15 被阅读116次

    场景:如果一次性要查出来比如10w条数据,那么性能会很差,此时一般会采取scroll滚动查询,一批一批的查,直到所有数据都查询完处理完。

    使用scroll滚动搜索,可以先搜索一批数据,然后下次在搜索一批数据,以此类推,直到搜索全部的数据出来。

    scoll搜索会在第一次搜索的时候,保存一个当时的视图快照,之后只会基于该旧的试图快照提供数据搜索,如果这个期间数据变更,是不会让用户看到的

    采用基于_doc进行排序的方式,性能较高。

    每次发送scroll请求,我们还需要指定一个scroll参数,指定一个时间窗口,每次搜索请求只要在这个时间窗口内能完成就可以了。

    案例讲解
    先看下我们一共有多少条数据
    GET /test_index/test_type/_search

    返回结果:

    {
      "took": 9,
      "timed_out": false,
      "_shards": {
        "total": 5,
        "successful": 5,
        "failed": 0
      },
      "hits": {
        "total": 3,
        "max_score": 1,
        "hits": [
          {
            "_index": "test_index",
            "_type": "test_type",
            "_id": "10",
            "_score": 1,
            "_source": {
              "test_field1": "test1",
              "test_field2": "updated test2"
            }
          },
          {
            "_index": "test_index",
            "_type": "test_type",
            "_id": "1",
            "_score": 1,
            "_source": {
              "test_field1": "test1",
              "test_field2": "test2"
            }
          },
          {
            "_index": "test_index",
            "_type": "test_type",
            "_id": "11",
            "_score": 1,
            "_source": {
              "num": 0,
              "tags": []
            }
          }
        ]
      }
    }
    

    一共3条数据

    现在我们基于scroll去搜索,在1m内每次搜索1条

    GET /test_index/test_type/_search?scroll=1m
    {
      "query": {
        "match_all": {}
      },
      "sort": ["_doc"],
      "size": 1
    }
    

    size决定了返回条数

    返回结果

    {
      "_scroll_id": "DnF1ZXJ5VGhlbkZldGNoBQAAAAAAAK_cFnJyRk9uQ0IzUndxS094YUlleUxuVXcAAAAAAACv3RZyckZPbkNCM1J3cUtPeGFJZXlMblV3AAAAAAAAr94WcnJGT25DQjNSd3FLT3hhSWV5TG5VdwAAAAAAAK_fFnJyRk9uQ0IzUndxS094YUlleUxuVXcAAAAAAACv4BZyckZPbkNCM1J3cUtPeGFJZXlMblV3",
      "took": 7,
      "timed_out": false,
      "_shards": {
        "total": 5,
        "successful": 5,
        "failed": 0
      },
      "hits": {
        "total": 3,
        "max_score": null,
        "hits": [
          {
            "_index": "test_index",
            "_type": "test_type",
            "_id": "10",
            "_score": null,
            "_source": {
              "test_field1": "test1",
              "test_field2": "updated test2"
            },
            "sort": [
              0
            ]
          }
        ]
      }
    }
    

    获取的结果会有一个scroll_id,下一次在发送scroll请求时,必须带上这个scroll_id,因为只有这样,才会去查询上一次scroll生成的快照。

    GET /_search/scroll
    {
        "scroll": "1m", 
        "scroll_id" : "DnF1ZXJ5VGhlbkZldGNoBQAAAAAAAK_cFnJyRk9uQ0IzUndxS094YUlleUxuVXcAAAAAAACv3RZyckZPbkNCM1J3cUtPeGFJZXlMblV3AAAAAAAAr94WcnJGT25DQjNSd3FLT3hhSWV5TG5VdwAAAAAAAK_fFnJyRk9uQ0IzUndxS094YUlleUxuVXcAAAAAAACv4BZyckZPbkNCM1J3cUtPeGFJZXlMblV3"
    }
    

    返回结果

    {
      "_scroll_id": "DnF1ZXJ5VGhlbkZldGNoBQAAAAAAALAxFnJyRk9uQ0IzUndxS094YUlleUxuVXcAAAAAAACwMBZyckZPbkNCM1J3cUtPeGFJZXlMblV3AAAAAAAAsDIWcnJGT25DQjNSd3FLT3hhSWV5TG5VdwAAAAAAALAzFnJyRk9uQ0IzUndxS094YUlleUxuVXcAAAAAAACwNBZyckZPbkNCM1J3cUtPeGFJZXlMblV3",
      "took": 65,
      "timed_out": false,
      "terminated_early": true,
      "_shards": {
        "total": 5,
        "successful": 5,
        "failed": 0
      },
      "hits": {
        "total": 3,
        "max_score": null,
        "hits": [
          {
            "_index": "test_index",
            "_type": "test_type",
            "_id": "1",
            "_score": null,
            "_source": {
              "test_field1": "test1",
              "test_field2": "test2"
            },
            "sort": [
              0
            ]
          }
        ]
      }
    }
    

    发现第二条出来了,以此类推。但是这期间要是有新数据插入,他是不会被查询到的,因为他查询的是旧的快照。

    scroll,看起来挺像分页的,但是其实使用场景不一样。分页主要是用来一页一页搜索,给用户看的;scroll主要是用来一批一批检索数据,让系统进行处理的

    若有兴趣,欢迎来加入群,【Java初学者学习交流群】:458430385,此群有Java开发人员、UI设计人员和前端工程师。有问必答,共同探讨学习,一起进步!
    欢迎关注我的微信公众号【Java码农社区】,会定时推送各种干货:


    qrcode_for_gh_577b64e73701_258.jpg

    相关文章

      网友评论

        本文标题:五十七、Elasticsearch初识搜索引擎-scoll技术滚

        本文链接:https://www.haomeiwen.com/subject/roymhxtx.html