字段中的索引和存储
其中需要说明的是:
1.index定义字段的分析类型以及检索方式
- 如果是no,则无法通过检索查询到该字段;
- 如果设置为not_analyzed则会将整个字段存储为关键词,常用于汉字短语、邮箱等复杂的字符串;
- 如果设置为analyzed则将会通过默认的standard分析器进行分析,详细的分析规则参考这里
2.store定义了字段是否存储
在《ES IN ACTION》中有这样一段描述:
This might be useful when you ask Elasticsearch for a particular field because retrieving a single stored field
will be faster than retrieving the entire _source and extracting that field from it, especially when you have
large documents.
NOTE When you store individual fields as well, you should take into account that the more you store, the
bigger your index gets. Usually bigger indices imply slower indexing and slower searching.
意思是,在ES中原始的文本会存储在_source里面(除非你关闭了它)。默认情况下其他提取出来的字段都不是独立存储的,是从_source里面提取出来的。当然你也可以独立的存储某个字段,只要设置store:tru
e即可。
独立存储某个字段,在频繁使用某个特殊字段时很常用。而且获取独立存储的字段要比从_source中解析快得多,而且额外你还需要从_source中解析出来这个字段,尤其是_source特别大的时候。
不过需要注意的是,独立存储的字段越多,那么索引就越大;索引越大,索引和检索的过程就会越慢....
3.Text vs. keyword
ElasticSearch 5.0以后,string类型有重大变更,移除了string
类型,string
字段被拆分成两种新的数据类型: text
用于全文搜索的,而keyword
用于关键词搜索。
ElasticSearch对字符串拥有两种完全不同的搜索方式. 你可以按照整个文本进行匹配, 即关键词搜索(keyword search), 也可以按单个字符匹配, 即全文搜索(full-text search). 对ElasticSearch稍有了解的人都知道, 前者的字符串被称为not-analyzed字符, 而后者被称作analyzed字符串。
Text:会分词,然后进行索引
支持模糊、精确查询
不支持聚合
keyword:不进行分词,直接索引
支持模糊、精确查询
支持聚合
text用于全文搜索的, 而keyword用于关键词搜索.
如果想做类似于sql中的like查询,可定义为keyword并使用通配符wildcard方式查询。
ElasticSearch字符串将默认被同时映射成text
和keyword
类型,将会自动创建下面的动态映射(dynamic mappings):
{
"foo":
{
"type": "text", "fields":
{
"keyword":
{
"type": "keyword", "ignore_above": 256
}
}
}
}
基于这个映射你即可以在foo字段上进行全文搜索, 也可以通过foo.keyword字段实现关键词搜索及数据聚合.
禁用这个特性也很方便: 你只需要在定义mapping时显式声明字符串字段的类型或者使用一个动态模板(dynamic template)来匹配你所有的字符串字段即可. 例如通过下面的dynamic template就可以恢复到在ElasticSearch 2.x中使用的dynamic template的效果:
{ "match_mapping_type": "string", "mapping": { "type": "text" }}
注意
:text字段不能直接聚合,需要使用fileddata=true,或者使用字段.keyword去进行聚合操作
4.Numeric
数值类型,注意numeric并不是一个类型,它包括多种类型,比如:long,integer,short,byte,double,float,每种的存储空间都是不一样的,一般默认推荐integer和float。官方文档参考
重要的参数:
index分析
- not_analyzed(默认) ,设置为该值可以保证该字段能通过检索查询到
- no
store存储
- true 独立存储
- false(默认)不存储,从_source中解析
5.date
日期类型,该类型可以接受一些常见的日期表达方式,官方文档参考。
重要的参数:
index分析
- not_analyzed(默认) ,设置为该值可以保证该字段能通过检索查询到
- no
store存储
- true 独立存储
- false(默认)不存储,从_source中解析
format格式化
- strict_date_optional_time||epoch_millis(默认)
- 你也可以自定义格式化内容,比如
{"date": { "type": "date", "format": "yyy-MM-dd HH:mm:ss||yyyy-MM-dd||epoch_millis" }}
6.IP
这个类型可以用来标识IPV4的地址,参考官方文档
常用参数:
index分析
- not_analyzed(默认) ,设置为该值可以保证该字段能通过检索查询到
- no
store存储
- true 独立存储
- false(默认)不存储,从_source中解析
7.boolean
布尔类型,所有的类型都可以标识布尔类型,参考官方文档
- False: 表示该值的有:false, "false", "off", "no", "0", "" (empty string), 0, 0.0
- True: 所有非False的都是true
重要的参数:
index分析
- not_analyzed(默认) ,设置为该值可以保证该字段能通过检索查询到
- no
store存储
- true 独立存储
- false(默认)不存储,从_source中解析
网友评论