美文网首页
Elasticsearch安装以及用logstash数据同步

Elasticsearch安装以及用logstash数据同步

作者: civism | 来源:发表于2018-12-20 11:41 被阅读0次

    准备

    • centos系统
    • jdk环境
    • elasticserach版本6.5.3

    新建linux用户

    由于是在现有的基础上安装elasticserach,所以为了对云主机影响最小,我选择了新建linux用户,这样还有一个好处是 es不能用root用户新建
    新建用户命令:

    在root用户下 执行
    useradd -d /es/release -m es
    

    这样就创建好了es用户,切换到es用户并且回到es用户目录

    su es 
    cd ~
    

    下载

    1. 下载elasticsearch安装包
    wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-6.5.3.tar.gz
    
    1. 解压安装包
    tar -zxf elasticsearch-6.5.3.tar.gz
    
    1. 修改配置
    vim  elasticsearch.yml
    

    我是在云主机上面玩的,而且还是比阿里云更坑的聚石塔,云主机对外暴露端口有限,简单理解为云主机中的局域网,只开放了几个端口,并且公司业务用最小集群足够满足了,所以一下配置只供参考
    现在基本的云服务(比如阿里云)是不支持多播的,所以即使你开启了多播模式你也仅仅只能找到本机上的节点。单播模式安全,也高效,但是缺点就是如果增加了一个新的机器的话,就需要每个节点上进行配置才生效了

    #集群名字
    cluster.name: guava
    #节点名称
    node.name: node-es1
    #数据路径
    path.data: /es/elasticsearch/data
    #日志路径
    path.logs: /es/elasticsearch/logs
    discovery.zen.ping.unicast.hosts: ["IP1","IP2","IP3"]
    discovery.zen.minimum_master_nodes: 2
    #该节点是否能作为master节点
    node.master: true
    #该节点是否能作为data节点
    node.data: true
    #可以支持外网访问
    network.host: 0.0.0.0
    #外网端口配置
    http.port:端口
    #节点通信走内网
    network.publish_host: 内网IP
    #启用xpack
    xpack.security.enabled: true
    
    1. 安装IK分词
    打开 https://github.com/medcl/elasticsearch-analysis-ik/releases,找到自己es所对应的版本,复制下载地址
    #下载ik
    wget https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.5.3/elasticsearch-analysis-ik-6.5.3.zip
    # 解压并且把解压出来的IK文件夹放入es的插件目录
    unzip elasticsearch-analysis-ik-6.5.3.zip -d ik
    

    x-pack安装

    #启用trial license
    curl -H "Content-Type:application/json" -XPOST  http://IP:9200/_xpack/license/start_trial?acknowledge=true
    #初始化密码
    在elasticsearch的bin目录下面执行
    ./elasticsearch-setup-passwords interactive
    选择y 设置初始化密码
    
    

    集成logstash-input-jdbc

    1. 参考以下博客
    #mysql 准实时同步到 elasticsearch
    https://blog.csdn.net/hatlonely/article/details/79945539
    
    https://blog.csdn.net/q15150676766/article/details/75949679
    #logstash的配置
    https://www.jianshu.com/p/d127c3799ad1
    

    2.安装logstash准备

    #由于logstash是用ruby开发,所以需要
    安装ruby
    yum install ruby
    #替换ruby镜像库为国内的库
    gem sources --add https://gems.ruby-china.com/ --remove https://rubygems.org/
    #检查是否替换成功
    gem sources -l
    

    3.下载logstash

    #下载logstash
    wget https://artifacts.elastic.co/downloads/logstash/logstash-6.5.3.tar.gz
    
    #修改logstash的Gemfile
    vi Gemfile,
    换源https://gems.ruby-china.com
    #安装logstash-input-jdbc
    ./bin/logstash-plugin  install logstash-input-jdbc
    #安装logstash的es插件
    ./bin/logstash-plugin install  logstash-output-elasticsearch
    #下载mysql驱动包
    wget https://cdn.mysql.com//Downloads/Connector-J/mysql-connector-java-5.1.46.zip
    

    4.编写logstash的

    input {
      jdbc {
        #mysql驱动包地址
        jdbc_driver_library => "mysql-connector-java-5.1.46-bin.jar"
        #驱动名称
        jdbc_driver_class => "com.mysql.jdbc.Driver"
        #mysql数据库地址
        jdbc_connection_string => "jdbc:mysql://IP:3306/itemcenter?useUnicode=true&characterEncoding=utf8&allowMultiQueries=true&useSSL=false"
        #账号
        jdbc_user => "guava"
        #密码
        jdbc_password => "guava"
        #是否开启分页
        jdbc_paging_enabled => "true"
        #分页大小
        jdbc_page_size => "1000"
        #乱码问题
        codec => plain { charset => "UTF-8"}
        #同步任务规则 cron表达式
        schedule => "* * * * *"
        #执行的sql
        statement => "select id,shop_id,title,price,list_time,delist_time,gmt_modify from tb_front_item  where gmt_modify >= :sql_last_value order by gmt_modify asc "
        #使用记录值
        use_column_value => true
        #类型
        tracking_column_type => "timestamp"
        #列名
        tracking_column => "gmt_modify"
        #同步记录的点
        last_run_metadata_path => "syncpoint_table"
      }
    }
    
    output {
      elasticsearch {
        hosts => ["IP:9200"]
        user => ""
        password => ""
        index => "front-item"
        document_id => "%{id}"
      }
    }
    

    在此记录以下自己遇到的坑

    1. 由于刚开始自己写的sql里面没有返回gmt_modify,所以在sql_last_value的值每次都是从1970-1-1开始
    2. syncpoint_table文件中记录的不是从最大的那一次时间,而是最后一条数据的时间,我偷懒改了下sql 按照时间排序,如果数据量大不推荐这么干

    结束语

    在elasticsearch整体的安装中,还算顺利,确实能做到开箱即用,而且es的生态比solrcloud要完善(自我感觉)
    在网上看了很多x-pack的说明教程,可惜他们的es版本都不是最新的,所以我还需要自己专研以下,不过问题不大,打不了不用kibana,如果有知道怎么用的大佬请告知我一下 QQ:695234456

    相关文章

      网友评论

          本文标题:Elasticsearch安装以及用logstash数据同步

          本文链接:https://www.haomeiwen.com/subject/tbdjkqtx.html