美文网首页
十五、Elasticsearch相关排序及算法

十五、Elasticsearch相关排序及算法

作者: 书写只为分享 | 来源:发表于2019-11-21 23:55 被阅读0次

    1、定制排序规则

    GET /website/article/_search

    {

      "query": {

        "constant_score": {

          "filter": {

            "term": {

              "author_id": 11400

            }

          }

        }

      },

      "sort": [

        {

          "post_date": {

            "order": "desc"

          }

        }

      ]

    }

    可以使用constant_score的filter,最常用的还是sort

    如果对一个string field进行排序,结果往往不准确,因为分词后是多个单词,再排序就不是我们想要的结果了

    通常解决方案是,将一个string field建立两次索引,一个分词,用来进行搜索;一个不分词,用来进行排序

    PUT /website

    {

      "mappings": {

        "article": {

          "properties": {

            "title": {

              "type": "text",

              "fields": {

                "raw": {

                  "type": "string",

                  "index": "not_analyzed"

                }

              },

              "fielddata": true

            },

            "content": {

              "type": "text"

            },

            "post_date": {

              "type": "date"

            },

            "author_id": {

              "type": "long"

            }

          }

        }

      }

    }

    GET /website/article/_search

    {

      "query": {

        "match_all": {}

      },

      "sort": [

        {"title.raw": {

            "order": "desc"

          }}]}

    2、elasticsearch排序算法

    得分(relevance score)算法,简单来说就是计算出,一个索引中的文本,与搜索文本,他们之间的关联匹配程度

    Elasticsearch使用的是 term frequency/inverse document frequency算法,简称为TF/IDF算法

    Term frequency:搜索文本中的各个词条在field文本中出现了多少次,出现次数越多,就越相关

    Inverse document frequency:搜索文本中的各个词条在整个索引的所有文档中出现了多少次,出现的次数越多,就越不相关

    Field-length norm:field长度,field越长,相关度越弱

     

    3、_score是如何被计算出来的

    GET /test_index/test_type/_search?explain

    {

      "query": {

        "match": {

          "test_field": "test hello"

        }

      }

    }

    4、分析一个document是如何被匹配上的

    GET /website/article/1/_explain

    {

       "query": {

        "match": {

          "title": "article"

        }

      }

    }

    搜索的时候,要依靠倒排索引;排序的时候,需要依靠正排索引,看到每个document的每个field,然后进行排序,所谓的正排索引,其实就是doc values

    在建立索引的时候,一方面会建立倒排索引,以供搜索用;一方面会建立正排索引,以供排序,聚合,过滤等操作使用

    doc values是被保存在磁盘上的,此时如果内存足够,os会自动将其缓存在内存中,性能还是会很高;如果内存不足够,os会将其写入磁盘上

    5、preference

    决定了哪些shard会被用来执行搜索操作

    _primary, _primary_first, _local, _only_node:xyz, _prefer_node:xyz, _shards:2,3

    bouncing results问题,两个document排序,field值相同;不同的shard上,可能排序不同;每次请求轮询打到不同的replica shard上;每次页面上看到的搜索结果的排序都不一样。这就是bouncing result,也就是跳跃的结果。

    搜索的时候,是轮询将搜索请求发送到每一个replica shard(primary shard),但是在不同的shard上,可能document的排序不同

    解决方案就是将preference设置为一个字符串,比如说user_id,让每个user每次搜索的时候,都使用同一个replica shard去执行,就不会看到bouncing results了

    6、search_type

    default:query_then_fetch

    dfs_query_then_fetch,可以提升relevance sort精准度

    相关文章

      网友评论

          本文标题:十五、Elasticsearch相关排序及算法

          本文链接:https://www.haomeiwen.com/subject/hdoxwctx.html