美文网首页
Elasticsearch 基础

Elasticsearch 基础

作者: 伊凡的一天 | 来源:发表于2020-03-04 15:33 被阅读0次

    Elasticsearch是一个分布式的搜索引擎和数据分析引擎,支持全文检索,结构化检索,能够对海量数据进行近实时的处理。下面是ES中的一些基本概念:

    • Node: Elastic本质上是一个分布式数据库,允许多台服务器协同工作。每台服务器上可以运行一个或多个Elastic实例(一般运行一个),其中一个Elastic实例就是一个Node,多台机器上的多个Elastic实例就构成了一个Cluster。
    • Document: 文档,es中的最小数据单元,一个document代表了一条es中存储的数据。例如一条商品分类数据,一条订单数据,通常使用JSON数据格式表示一条Document。一条Document相当于关系型数据库中的一条记录。
    • Field: 一个Document里有多个field,每个field就是一个字段。例如一条商品数据就可能包含以下field: product_id,product_name,product_desc,category_id,category_name。一个Field相当于关系型数据库中一张表的字段。
    • Index: 索引,包含一堆有相似结构的文档数据,比如一个客户索引,商品分类索引,订单索引等等。一个index包含很多document,一个index就代表了一类类似的或者相同的document。比如说建立一个product index,商品索引,里面可能就存放了所有的商品数据,即所有的商品document。一个index相当于关系型数据库中的一个database。
    • Type:类型,每个索引里都可以有一个或多个type,type是index中的一个逻辑数据分类。一个type下的document,都有相同的field。比如一个博客数据index,其中可能有用户数据type,博客数据type和评论数据type等。一个type相当于关系型数据库中的一张表。
    • Shard: 单台机器无法存储大量数据,es可以将一个索引中的数据切分为多个shard,分布在多台机器上存储。有了shard就可以横向扩展,存储更多数据,让搜索和分析等操作分布到多台服务器上去执行,提升吞吐量和性能。
    • Replica: 任何一个服务器随时可能故障或宕机,此时shard可能就会丢失,因此可以为每个shard创建多个replica副本。replica可以在shard故障时提供备用服务,保证数据不丢失,多个replica还可以提升搜索操作的吞吐量和性能。

    数据操作

    新增文档

    下面的例子表示向accounts index的person type中添加一个document:

    $ curl -X POST 'localhost:9200/accounts/person' -d '
    {
    "user": "李四",
    "title": "工程师",
    "desc": "系统管理"
    }'
    

    服务器返回的response如下:

    {
    "_index":"accounts",
    "_type":"person",
    "_id":"AV3qGfrC6jMbsbXb6k1p",
    "_version":1,
    "result":"created",
    "_shards":{"total":2,"successful":1,"failed":0},
    "created":true
    }
    

    response中包含了index名称,type名称,自动生成的id和shards信息等。

    更新文档

    $ curl -X PUT 'localhost:9200/accounts/person/1' -d '
    {
    "user" : "张三",
    "title" : "工程师",
    "desc" : "数据库管理,软件开发"
    }'
    
    {
    "_index":"accounts",
    "_type":"person",
    "_id":"1",
    "_version":2,
    "result":"updated",
    "_shards":{"total":2,"successful":1,"failed":0},
    "created":false
    }
    

    上面的例子修改了id为1的person记录,我们将desc从“数据库管理”修改为了“数据库管理,软件开发”。返回的response中,"result"从新建的"created"变为了更新的"updated","_version"从1变成了2,"created"字段值为false。

    删除文档

    删除文档就是发送DELETE请求:

    $ curl -X DELETE 'localhost:9200/accounts/person/1'
    

    Query string search

    这种方法通过HTTP请求的Query String携带查询参数进行查询,适用于临时性的查询需求,例如:

    # 检索name中包含Java的文档, 并按价格降序排序: 
    curl -XGET '[http://localhost:9301/book_shop/it_book/_search?q=name:Java&sort=price:desc](http://localhost:9301/book_shop/it_book/_search?q=name:Java&sort=price:desc)' 
    

    Query DSL

    DSL: Domain Specified Language, 特定领域的语言, 一般需要Kibana等工具配合操作。

    这种方式把查询参数构建成JSON格式的数据, 并封装到HTTP请求的Request Body(请求体)中, 可以构建各类复杂的查询语法, 功能要比Query String Search强大很多。

    1. 查询全部商品

    GET book_shop/it_book/_search
    {
    "query": { "match_all": {} }
    }
    

    2. 查询name中包含Java的商品,并按照price降序排序

    GET book_shop/it_book/_search
    {
    "query": {
    "match": {
    "name": "Java"
    }
    },
    "sort": [
    { "price": "desc" }
    ]
    }
    

    3. 分页查询商品,每页显示1条, 显示第3页

    GET book_shop/it_book/_search
    {
    "query": { "match_all": {} },
    "from": 2,
    "size": 1
    }
    

    4. 只查询商品的名称和价格

    GET book_shop/it_book/_search
    {
    "query": {"match_all": {}},
    "_source": ["name", "price"]
    }
    

    5. 过滤查询,查询name中包含Java,且price不大于80元的商品

    GET book_shop/it_book/_search
    {
    "query": {
    "bool": {
    "must": {
    "match": {"name": "Java"} // name中含有Java
    },
    "filter": {
    "range": { 
    "price": {"lte": 80.0} // 价格不大于80.0
    }
    }
    }
    }
    }
    

    6. 全文检索,查询描述信息desc中包含"Java图书"的文档, 并只显示name和desc的值

    GET book_shop/it_book/_search
    {
    "query": {
    "match": {"desc": "Java图书"}
    },
    "_source": ["name", "desc"]
    }
    

    返回结果如下:

    {
    "took" : 2,
    "timed_out" : false,
    "_shards" : {
    "total" : 5,
    "successful" : 5,
    "skipped" : 0,
    "failed" : 0
    },
    "hits" : {
    "total" : 2,
    "max_score" : 0.8630463,
    "hits" : [
    {
    "_index" : "book_shop",
    "_type" : "it_book",
    "_id" : "2",
    "_score" : 0.8630463,
    "_source" : {
    "name" : "深入理解Java虚拟机:JVM高级特性与最佳实践",
    "desc" : "Java图书领域公认的经典著作" // desc中有"Java"和"图书"
    }
    },
    {
    "_index" : "book_shop",
    "_type" : "it_book",
    "_id" : "1",
    "_score" : 0.2876821,
    "_source" : {
    "name" : "Java编程思想(第4版)",
    "desc" : "Java学习必读经典,殿堂级著作!" // desc中有"Java"
    }
    }
    ]
    }
    }
    

    参考文章

    相关文章

      网友评论

          本文标题:Elasticsearch 基础

          本文链接:https://www.haomeiwen.com/subject/qnavlhtx.html