美文网首页
【elasticsearch】12、基于词项和基于全文的搜索

【elasticsearch】12、基于词项和基于全文的搜索

作者: cutieagain | 来源:发表于2020-03-14 19:26 被阅读0次

基于term的查询

  • term的重要性
    • term是表达语义的最小单位,搜索和利用统计语言模型进行自然语言处理都需要处理term
  • 特点
    • term level query:term query/range query/exist query/prefix query/wildcard query
    • 在es中,term查询,对输入不做分词,会将输入作为一个整体,在倒排索引中查找准确的词项,并且使用相关度算分公式为每个包含该词项的文档进行相关度算分 - 例如“app store”
    • 可以通过constant score将查询转换成一个filtering,避免算分,并利用缓存提高性能

关于term查询的例子

  • 几个查询的结果分别是什么
  • 如果搜不到,为什么
  • 应该如何解决


    image.png
    image.png

多字段mapping和term查询

image.png
image.png

符合查询 - constant score转为filter

  • 将query转成filter,忽略tf-idf计算,避免相关性算分的开销
  • filter可以有效利用缓存


    image.png
image.png

基于全文的查询

  • 基于全文本的查找
    • match query/mtach phrase query/query string query
  • 特点
    • 索引和搜索时都会进行分词,查询字符串先传递到一个合适的分词器,然后生成一个供查询的词项列表
  • 查询的时候,先会对输入的查询进行分词,然后每个词项逐个进行底层的查询,最终将结果进行合并。并为每个文档生成一个算分。例如查找“matrix reloaded”,会查到包括matrix或者reload的所有结果

match query result

image.png image.png

operator

image.png

minimum_should_match

image.png

match phrase query

image.png

match query查询过程

image.png
  • 基于全文本的查找
    • match query/match phrase query/query string query
  • 基于全文本的查询的特点
    • 索引和搜索时都会进行分词,查询字符串会先传递到一个合适的分词器,然后生成一个供查询的词项列表
    • 查询会对每个词项逐个进行底层的查询,再将结果进行合并,并为每个文档生成一个算分

回顾

  • 基于词项的查找vs基于全文的查找
  • 通过字段mapping控制字段的分词
    • “text”vs"keyword"
  • 通过参数控制查询的precision&recall
  • 符合查询 - constant score 查询
    • 即便是对keyword进行term查询,同样会进行算分
    • 可以将查询转为filtering,取消相关性算分的环节,以提升性能
DELETE products
PUT products
{
  "settings": {
    "number_of_shards": 1
  }
}


POST /products/_bulk
{ "index": { "_id": 1 }}
{ "productID" : "XHDK-A-1293-#fJ3","desc":"iPhone" }
{ "index": { "_id": 2 }}
{ "productID" : "KDKE-B-9947-#kL5","desc":"iPad" }
{ "index": { "_id": 3 }}
{ "productID" : "JODL-X-1937-#pV7","desc":"MBP" }

GET /products

POST /products/_search
{
  "query": {
    "term": {
      "desc": {
        //"value": "iPhone"
        "value":"iphone"
      }
    }
  }
}

POST /products/_search
{
  "query": {
    "term": {
      "desc.keyword": {
        //"value": "iPhone"
        //"value":"iphone"
      }
    }
  }
}


POST /products/_search
{
  "query": {
    "term": {
      "productID": {
        "value": "XHDK-A-1293-#fJ3"
      }
    }
  }
}

POST /products/_search
{
  //"explain": true,
  "query": {
    "term": {
      "productID.keyword": {
        "value": "XHDK-A-1293-#fJ3"
      }
    }
  }
}




POST /products/_search
{
  "explain": true,
  "query": {
    "constant_score": {
      "filter": {
        "term": {
          "productID.keyword": "XHDK-A-1293-#fJ3"
        }
      }

    }
  }
}


#设置 position_increment_gap
DELETE groups
PUT groups
{
  "mappings": {
    "properties": {
      "names":{
        "type": "text",
        "position_increment_gap": 0
      }
    }
  }
}

GET groups/_mapping

POST groups/_doc
{
  "names": [ "John Water", "Water Smith"]
}

POST groups/_search
{
  "query": {
    "match_phrase": {
      "names": {
        "query": "Water Water",
        "slop": 100
      }
    }
  }
}


POST groups/_search
{
  "query": {
    "match_phrase": {
      "names": "Water Smith"
    }
  }
}

相关文章

网友评论

      本文标题:【elasticsearch】12、基于词项和基于全文的搜索

      本文链接:https://www.haomeiwen.com/subject/ksrpshtx.html