美文网首页
es 知识点记录

es 知识点记录

作者: 右左君 | 来源:发表于2018-08-07 22:13 被阅读0次

    es 知识点

    [TOC]

    数据写入过程

    Lucene 把每次生成的倒排索引,叫做一个段(segment)。然后另外使用一个 commit 文件,记录索引内所有的 segment。而生成 segment 的数据来源,则是内存中的 buffer。

    1、数据写入 --> 进入ES内存 buffer (同时记录到translog)--> 生成倒排索引分片(segment)

    2、将 buffer 中的 segment 先同步到文件系统缓存中,然后再刷写到磁盘

    ES实时检索

    由于在buffer中的索引片先同步到文件系统缓存,再刷写到磁盘。
    在检索时可以直接检索文件系统缓存的segment,保证了实时性。

    把内存中的数据转换成segment的过程,称refresh。在 Elasticsearch 中,默认 1 秒执行一次。

    refresh_interval 参数可修改刷新缓存的时间间隔

    ES 同步到磁盘失败:数据恢复-flush过程

    由于Elasticsearch 在把数据写入到内存 buffer 的同时,其实还另外记录了一个 translog日志,如果在这期间故障发生时,Elasticsearch会从commit位置开始,恢复整个translog文件中的记录,保证数据的一致性。

    等到真正把 segment 刷到磁盘,且 commit 文件进行更新的时候, translog 文件才清空。

    副本分片的存储过程

    默认情况下ES通过对每个数据的id值进行哈希计算,对索引的主分片取余,就是数据实际应该存储的分片ID。

    由于取余这个计算,完全依赖于分母,所以导致 ES 索引有一个限制,索引的主分片数,不可以随意修改。因为一旦主分片数不一样,所以数据的存储位置计算结果都会发生改变,索引数据就完全不可读了。

    控制字段的存储选项

    ES底层使用Lucene存储数据,主要包括行存(StoreFiled)、列存(DocValues)和倒排索引(InvertIndex)三部分。 大多数使用场景中,没有必要同时存储这三个部分,可以通过下面的参数来做适当调整:

    StoreFiled: 行存,其中占比最大的是source字段,它控制doc原始数据的存储。在写入数据时,ES把doc原始数据的整个json结构体当做一个string,存储为source字段。查询时,可以通过source字段拿到当初写入时的整个json结构体。 所以,如果没有取出整个原始json结构体的需求,可以通过下面的命令,在mapping中关闭source字段或者只在source中存储部分字段,数据查询时仍可通过ES的docvaluefields获取所有字段的值。
    注意:关闭source后, update, updatebyquery, reindex等接口将无法正常使用,所以有update等需求的index不能关闭source。

    # 关闭 _source
    PUT my_index 
    {
        "mappings":{
            "my_type":{
                "_source":{
                    "enabled":false
                }
            }
        }
    }
    
    

    doc_values:控制列存。
    ES主要使用列存来支持sorting, aggregations和scripts功能,对于没有上述需求的字段,可以通过下面的命令关闭docvalues,降低存储成本。

    PUT my_index
    {
        "mappings":{
            "my_type":{
                "properties":{
                    "session_id":{
                        "type":"keyword",
                        "doc_values":false
                    }
                }
            }
        }
    }
    

    index:控制倒排索引。
    ES默认对于所有字段都开启了倒排索引,用于查询。对于没有查询需求的字段,可以通过下面的命令关闭倒排索引。

    {
        "mappings":{
            "my_type":{
                "properties":{
                    "session_id":{
                        "type":"keyword",
                        "index":false
                    }
                }
            }
        }
    }
    

    all:ES的一个特殊的字段,ES把doc的所有值拼接成一个字符串后,做分词,然后保存倒排索引,用于支持整个json的全文检索。
    这种需求适用的场景较少,可以通过下面的命令将all字段关闭,节约存储成本和cpu开销。(ES6.0+以上的版本不再支持_all字段,不需要设置)

    # 关闭 all
    PUT my_index 
    {
        "mappings":{
            "my_type":{
                "_all":{
                    "enabled":false
                }
            }
        }
    }
    
    

    fieldnames:用于exists查询,来确认doc里面某个字段是否存在。没有需求,可以将其关闭。

    # 关闭 all
    PUT my_index 
    {
        "mappings":{
            "my_type":{
                "_field_names":{
                    "enabled":false
                }
            }
        }
    }
    
    

    相关文章

      网友评论

          本文标题:es 知识点记录

          本文链接:https://www.haomeiwen.com/subject/nnjzvftx.html