美文网首页
Elasticdump 使用简记

Elasticdump 使用简记

作者: 码农工号9527 | 来源:发表于2023-06-04 15:46 被阅读0次

    简介

    Elasticdump 是一个用于迁移和备份 Elasticsearch 数据的工具,它允许将数据从一个 Elasticsearch 索引或集群导出到文件中,也可以将文件中的数据导入到 Elasticsearch 索引或集群中。

    使用条件:需要安装node

    linux下

    1.下载node.js包

    wget https://nodejs.org/dist/v10.13.0/node-v10.13.0-linux-x64.tar.gz
    

    2.解压node.js包

    3.创建链接接

    ln -s ~/node-v10.13.0-linux-x64/bin/node /usr/bin/node
    ln -s ~/node-v10.13.0-linux-x64/bin/npm /usr/bin/npm
    

    4.查看是否链接成功

    node -v
    npm -v
    

    win下

    可以通过这个文章的步骤来操作,windows 安装node及环境配置

    安装elasticdump

    本地:

    npm install elasticdump
    ./bin/elasticdump
    

    全局:

    npm install elasticdump -g
    elasticdump
    

    使用elasticdump

    Elasticdump的工作原理是将input发送到output
    格式:{protocol}://{host}:{port}/{index},例:http://127.0.0.1:9200/my_index

    使用例子

    1.使用分析器和映射将索引从生产复制到暂存:

    elasticdump \
      --input=http://production.es.com:9200/my_index \
      --output=http://staging.es.com:9200/my_index \
      --type=analyzer
    elasticdump \
      --input=http://production.es.com:9200/my_index \
      --output=http://staging.es.com:9200/my_index \
      --type=mapping
    elasticdump \
      --input=http://production.es.com:9200/my_index \
      --output=http://staging.es.com:9200/my_index \
      --type=data
    

    2.将索引数据备份到文件:

    elasticdump \
      --input=http://production.es.com:9200/my_index \
      --output=/data/my_index_mapping.json \
      --type=mapping
    elasticdump \
      --input=http://production.es.com:9200/my_index \
      --output=/data/my_index.json \
      --type=data
    

    3.使用stdout备份和索引到gzip:

    elasticdump \
      --input=http://production.es.com:9200/my_index \
      --output=$ \
      | gzip > /data/my_index.json.gz
    

    4.将查询结果备份到文件:

    elasticdump \
      --input=http://production.es.com:9200/my_index \
      --output=query.json \
      --searchBody="{\"query\":{\"term\":{\"username\": \"admin\"}}}"
    

    5.从文件中指定searchBody:

    elasticdump \
      --input=http://production.es.com:9200/my_index \
      --output=query.json \
      --searchBody=@/data/searchbody.json  
    

    6.复制单个shard数据:

    elasticdump \
      --input=http://es.com:9200/api \
      --output=http://es.com:9200/api2 \
      --input-params="{\"preference\":\"_shards:0\"}"
    

    7.将aliases备份到文件

    elasticdump \
      --input=http://es.com:9200/index-name/alias-filter \
      --output=alias.json \
      --type=alias
    

    8.导入aliases到ES

    elasticdump \
      --input=./alias.json \
      --output=http://es.com:9200 \
      --type=alias
    

    9.备份templates 到文件

    elasticdump \
      --input=http://es.com:9200/template-filter \
      --output=templates.json \
      --type=template
    

    10.导入 templates 到ES

    elasticdump \
      --input=./templates.json \
      --output=http://es.com:9200 \
      --type=template
    

    11.将文件拆分为多个部分

    elasticdump \
      --input=http://production.es.com:9200/my_index \
      --output=/data/my_index.json \
      --fileSize=10mb
    

    --s3AccessKeyId AWS access key ID
    --s3SecretAccessKey AWS secret access key
    --s3Region AWS region
    --s3Bucket Name of the bucket to which the data will be uploaded
    --s3RecordKey Object key (filename) for the data to be uploaded
    --s3Compress gzip data before sending to s3

    12.将数据从S3(AWS)导入ES (使用 s3urls)

    elasticdump \
      --s3AccessKeyId "${access_key_id}" \
      --s3SecretAccessKey "${access_key_secret}" \
      --input "s3://${bucket_name}/${file_name}.json" \
      --output=http://production.es.com:9200/my_index
    

    13.导出ES 数据到 S3(AWS) (使用 s3urls)

    elasticdump \
      --s3AccessKeyId "${access_key_id}" \
      --s3SecretAccessKey "${access_key_secret}" \
      --input=http://production.es.com:9200/my_index \
      --output "s3://${bucket_name}/${file_name}.json"
    

    Minio介绍: 官网 https://www.minio.org.cn/,Minio 是一个基于 Apache License v2.0 开源协议对象存储服务。它兼容亚马逊 S3 云存储服务接口,非常适合于存储大容量非结构化的数据,例如图片、视频、日志文件、备份数据和容器/虚拟机镜像等,而一个对象文件可以是任意大小,从几 kb 到最大 5T 不等。

    14.从 MINIO (s3 compatible) 导入数据到 ES (使用 s3urls)

    elasticdump \
      --s3AccessKeyId "${access_key_id}" \
      --s3SecretAccessKey "${access_key_secret}" \
      --input "s3://${bucket_name}/${file_name}.json" \
      --output=http://production.es.com:9200/my_index
      --s3ForcePathStyle true
      --s3Endpoint https://production.minio.co
    

    15.导出ES 数据到 MINIO (s3 compatible) (使用 s3urls)

    elasticdump \
      --s3AccessKeyId "${access_key_id}" \
      --s3SecretAccessKey "${access_key_secret}" \
      --input=http://production.es.com:9200/my_index \
      --output "s3://${bucket_name}/${file_name}.json"
      --s3ForcePathStyle true
      --s3Endpoint https://production.minio.co
    

    16.将CSV文件中的数据导入ES(使用csvurls)

    elasticdump \
      # csv:// prefix must be included to allow parsing of csv files
      # --input "csv://${file_path}.csv" \
      --input "csv:///data/cars.csv"
      --output=http://production.es.com:9200/my_index \
      --csvSkipRows 1    # used to skip parsed rows (this does not include the headers row)
      --csvDelimiter ";" # default csvDelimiter is ','
    

    本地实例使用例子

    elasticdump \
    --input=http://es用户:es密码@esip:es端口/索引名 \
    --searchBody="{\"query\":{\"range\":{\"@timestamp\":{\"gte\":\"2023-06-01T00:00:00\",\"lt\":\"2023-06-01T23:59:59\"}}},\"_source\":[\"message\"]}" \
    --output=my_index_mapping.json \
    --type=data \
    --limit=10000 \   
    --concurrency=15 \
    --scrollTime=10m
    

    --searchBody:导出指定条件的数据,本例指定了了时间范围和只导_source里面的message
    --output:导出到本地my_index_mapping.json文件
    --type:导出类型 data
    --limit:每个批次导出数量10000条,类似分页每页的数量
    --concurrency:指定 worker 的数量。默认情况下并发 worker 的数量为 3,可以根据需要适当增加 worker 数量来提高导出速度。
    --scrollTime:指定滚动窗口的时间,一旦滚动时间结束,Elasticsearch 就会关闭游标,这是一种较好的方式来减少游标的数量和内存占用。

    此命令在我本地电脑执行了18min,导出了153W+数据,文件大小1.2G+,仅供参考。

    相关文章

      网友评论

          本文标题:Elasticdump 使用简记

          本文链接:https://www.haomeiwen.com/subject/etmbedtx.html