Elasticsearch 字段类型

作者: SheHuan | 来源:发表于2020-12-04 22:20 被阅读0次

大数据技术之ElasticSearch(三)
Elasticsearch 字段类型
ElasticSearch系列文章一核心概念
Elasticsearch数据类型及其属性
ElasticSearch 字段类型介绍
14. Elasticsearch动态映射-1
ElasticSearch数据类型
ElasticSearch文章汇集
Elasticsearch 字段数据类型 6.5版本
elasticSearch7.x—mapping中的fields

在学习 ES 文档相关操作之前，我们先学习 ES 中常用的字段类型。

1、text

当一个字段的内容需要被全文检索时，可以使用text类型，支持长内容的存储，比如检索文章内容、商品信息等。该类型的字段内容在保存时会被分词器分析，并且拆分成多个词项，然后根据拆分后的词项生成对应的索引，根据关键字检索时可能会将关键字分词，用分好的词从之前生成的索引中去匹配，进而找到对应的文档。对于text类型的字段你可能无法通过指定文本精确的检索到。另外需要注意的是，text类型的字段不能直接用于排序、聚合操作。这种类型的字符串也称做analyzed字符串。

2、keyword

keyword类型适用于结构化的字段，比如手机号、商品id、用户id等，默认最大长度为256。keyword类型的字段内容不会被分词器分析、拆分，而是根据原始文本直接生成倒排索引，所以keyword类型的字段可以直接通过原始文本精确的检索到。keyword类型的字段可用于过滤、排序、聚合操作。这种字符串称做not-analyzed字符串。

3、日期类型

ES 中的date类型默认支持如下两种格式：

strict_date_optional_time，表示 yyyy-MM-dd'T'HH:mm:ss.SSSSSSZ 或者 yyyy-MM-dd 格式的日期
epoch_millis，表示从 1970.1.1 零点到现在的毫秒数，

如果我们要存储类似2020-12-01 20:10:15这种格式的日期就会有问题，我们可以在创建索引时指定字段为date类型以及可以匹配的日期格式：

PUT blog
{
  "mappings": {
    "properties": {
      "publishDate":{
        "type": "date",
        "format": "yyyy-MM-dd HH:mm:ss||yyyy-MM-dd||epoch_millis"
      }
    }
  }
}

需要注意的是，如果不主动指定字段类型为date，ES 默认使用text类型去保存日期的值。

4、布尔类型

boolean类型就简单了，有true、false两个值。

5、数值类型

类型	取值范围
byte	-2^7 ~ 2^7-1
short	-2^15 ~ 2^15-1
integer	-2^31 ~ 2^31-1
long	-2^63 ~ 2^63-1
float	32位单精度IEEE 754浮点类型
double	64位双精度IEEE 754浮点类型
half_float	16位半精度IEEE 754浮点类型
scaled_float	缩放类型的的浮点数

一般情况下，如果可以满足需求，则优先使用范围小的类型，来提高效率。

6、数组类型

其实在 ES 中并没有数组类型，但我们却可以按数组格式来存储数据，因为 ES 中默认每个字段可以包含多个值，同时要求多个值得类型必须一致。例如可以按照如下方式指定一个字段的值为数组：

"label": [
    "Elastcsearch",
    "7.9.3版本"
  ]

7、对象类型

这个其实没什么特别的，由于 ES 中以 JSON 格式存储数据，所以一个 JSON 对象中的某个字段值可以是另一个 JSON 对象。

8、范围类型

类型	技能
integer_range	-2^31 ~ 2^31-1
long_range	-2^63 ~ 2^63-1
float_range	32位单精度IEEE 754浮点类型
double_range	64位双精度IEEE 754浮点类型
date_range	自系统历元以来无符号64位整数范围内的毫秒数
ip_range	IPv4、IPv6 的一系列IP地址值

例如我们可以创建索引时定义一个日期范围的字段类型：

PUT blog
{
  "mappings": {
    "properties": {
      "reader_age_range":{
        "type": "integer_range"
      }
    }
  }
}

添加文档时可以这样指定字段的值：

"reader_age_range": {
    "gte": 10,
    "lte": 50
}

最后我们通过一个完整的例子梳理一下这些字段类型，首先创建blog索引，并指定相关字段的类型：

PUT blog
{
  "mappings": {
    "properties": {
      "publishDate": {
        "type": "date",
        "format": "yyyy-MM-dd HH:mm:ss||yyyy-MM-dd||epoch_millis"
      },
      "reader_age_range": {
        "type": "integer_range"
      }
    }
  }
}

然后添加一条文档数据：

POST blog/_doc
{
  "title": "Learn Elastcsearch",
  "publishDate": "2020-12-01 20:10:15",
  "isTop": true,
  "score": 4.5,
  "commnetNum": 50,
  "label": [
    "Elastcsearch",
    "7.9.3版本"
  ],
  "author": {
    "name": "shehuan",
    "github": "https://github.com/shehuan"
  },
  "reader_age_range": {
    "gte": 10,
    "lte": 50
  }
}

上边我们只指定了publishDate和reader_age_range字段的类型，其它的并未指定。其实在添加文档时，ES 也会根据字段的值动态的推断出它的类型，即动态映射，但这样可能出现推断不符合预期的问题，例如前边说过的日期类型，所以你可以根据实际情况选择是否主动指定字段的类型。

再使用如下请求查看一下文档字段的mapping信息：

GET blog/_mapping?pretty

结果如下：

{
  "blog" : {
    "mappings" : {
      "properties" : {
        "author" : {
          "properties" : {
            "github" : {
              "type" : "text",
              "fields" : {
                "keyword" : {
                  "type" : "keyword",
                  "ignore_above" : 256
                }
              }
            },
            "name" : {
              "type" : "text",
              "fields" : {
                "keyword" : {
                  "type" : "keyword",
                  "ignore_above" : 256
                }
              }
            }
          }
        },
        "commnetNum" : {
          "type" : "long"
        },
        "isTop" : {
          "type" : "boolean"
        },
        "label" : {
          "type" : "text",
          "fields" : {
            "keyword" : {
              "type" : "keyword",
              "ignore_above" : 256
            }
          }
        },
        "publishDate" : {
          "type" : "date",
          "format" : "yyyy-MM-dd HH:mm:ss||yyyy-MM-dd||epoch_millis"
        },
        "reader_age_range" : {
          "type" : "integer_range"
        },
        "score" : {
          "type" : "float"
        },
        "title" : {
          "type" : "text",
          "fields" : {
            "keyword" : {
              "type" : "keyword",
              "ignore_above" : 256
            }
          }
        }
      }
    }
  }
}

由于我们未指定title字段的类型， ES 自动将其映射成了text类型，同时还添加了一个类型为keyword的字段：