美文网首页大数据运维
大数据运维问题记录(六)

大数据运维问题记录(六)

作者: 火车飞侠 | 来源:发表于2016-08-26 17:17 被阅读74次

问题描述:公司之前的采集产品由于对大数据这块水土不服,入库慢等原因,再加上负责这个产品的团队全部走光,导致现在出了问题没人能解决,谁都不愿意踩这个坑,于是让我们部门重新出个方案来取代这个产品(背锅侠),项目需求是基于sdtp协议传输数据,老大说用netty来做,让我研究了一下netty集群的部署方式,网上各种研究了一番决定采用zookeeper来管理netty集群,这个方案要求netty服务端启动的时候将本机进行注册服务,同时要求客户端要调用zookeeper的api来发现服务。但是在这个项目中客户端不是我们来做,我们只做数据接收,也就是服务端,要想采用此方案还需要做客户端的厂商配合,经过沟通结果人家不接受,原因是自己的客户端是一个产品,不可能为我们来开这个口,只能重新想方案了

问题解决:又是一番研究,决定采用nginx+keepalived的方式。nginx可以配置负载均衡,keepalived可以配置HA实现高可用,最开始没想用nginx是以为nginx只支持http,后来才发现从nginx1.9.11版本开始支持TCP协议

Paste_Image.png
以下是我测试方案时的环境:
netty服务器1:192.168.160.136(host:lip1)
netty服务器2:192.168.160.135(host:lip2)
nginx服务器1,keepalived主服务器:192.168.160.134(host:lip4)
nginx服务器2,keepalived备服务器:192.168.160.133(host:lip3)
现在将nginx和keepalived的安装和配置过程记录一下
首先记录下安装nginx的步骤
1.安装GCC 和GCC-C++
yum install -y gcc
yum install -y gcc-c++
2.安装pcre库
cd/usr/local/
wget ftp://ftp.csx.cam.ac.uk/pub/software/programming/pcre/pcre-8.39.tar.gz
tar -zxvf pcre-8.39.tar.gz
cd pcre-8.39/
./configure
make
make install
3.安装zlib库
cd /usr/local/
wget http://zlib.net/zlib-1.2.8.tar.gz
tar -xvf zlib-1.2.8.tar.gz
cd zlib-1.2.8/
./configure
make
make install
4.安装ssl
yum install openssl
5.安装nginx
到官网http://nginx.org/ 下载包
cd /usr/local/
tar -zxvf nginx-1.10.1.tar.gz
./configure --with-stream(注意默认nginx不安装stream模块的,因为需要支持tcp协议,所以需要加上--with-stream)
make
make install

Nginx使用了一个新的stream模块来实现TCP负载均衡,这个模块,类似于http和mail模块,允许我们配置一组监听TCP连接的服务。允许你配置多个服务的TCP连接,通过在upstream的server组中配置proxy_pass指令。

6.分别在nginx服务器1和2上修改nginx.conf文件,在http同级下添加一个stream模块(和http等同级):

stream {
    server {
        listen 3456;#要监听的端口号
        proxy_pass netty;
    }
 
    upstream netty {
        server 192.168.160.136:3456;#netty服务器1的ip和要监听的端口号
        server 192.168.160.135:3456;#netty服务器2的ip和要监听的端口号
    }
}

7.修改下nginx目录下的html中的index.html文件做个标识
8.分别在两台nginx服务器上/usr/local/nginx/sbin/nginx启动nginx
9.验证nginx是否安装成功
在浏览器输入http://192.168.160.134 和 http://192.168.160.133

Paste_Image.png Paste_Image.png

看到这个页面说明启动成功

下面是安装keepalived的步骤
1.在官网http://www.keepalived.org/ 下载
cd /usr/local/
tar -zxvf keepalived-1.2.23.tar.gz
cd keepalived-1.2.23/
./configure
make
makeinstall

2.在nginx服务器1上修改keepalived.conf文件

global_defs {               #主要是配置故障发生时的通知对象以及机器标识
   notification_email {
     xxx@xxxx.com.cn
   }
   notification_email_from xxx@xxxx.com.cn
   smtp_server 127.0.0.1
   smtp_connect_timeout 30
   router_id nginx_master
}

vrrp_instance VI_1 {
    state MASTER            #将此台服务器定义为主服务器
    interface eno16777736   #网卡名
    virtual_router_id 51
    priority 100            #优先级最高
    advert_int 1
    authentication {
        auth_type PASS
        auth_pass 1111
    }
    virtual_ipaddress {
        192.168.160.200     #设置VIP供调用
    }
}

3.在nginx服务器2上修改keepalived.conf文件

global_defs {                    #主要是配置故障发生时的通知对象以及机器标识
   notification_email {
     xxx@xxxx.com.cn
   }
   notification_email_from xxx@xxxx.com.cn
   smtp_server 127.0.0.1
   smtp_connect_timeout 30
   router_id nginx_backup
}

vrrp_instance VI_1 {
    state BACKUP                 #将此台服务器做为备服务器
    interface eno16777736        #网卡名
    virtual_router_id 51
    priority 50                  #优先级设置的比master低就行
    advert_int 1
    authentication {
        auth_type PASS
        auth_pass 1111
    }
    virtual_ipaddress {
        192.168.160.200          #设置VIP供调用
    }
}

4.启动keepalived主服务器
/etc/rc.d/init.d/keepalived start
5.验证虚拟IP是否启用
ip a

Paste_Image.png

可以看到VIP已经启用了

再启动备服务器的keepalived,将netty服务端程序打包分别部署到netty服务器上,并运行,给客户端开放的ip是我们设置的VIP,端口号是3456,这样就实现了基于netty集群的搭建以及nginx集群的负载均衡和HA的实现

做个测试验证一下
在cmd窗口中输入telnet进入telnet client界面,输入我们设置的VIP和3456端口


Paste_Image.png

回车后显示连到lip1服务器上了


Paste_Image.png
再试一次
Paste_Image.png
这次到了lip2上了
Paste_Image.png

说明负载均衡这块没有问题,我们再来验证一下HA是否可用,将nginx的master节点的keepalived和nginx停掉,我们再连这个VIP


Paste_Image.png
也可以,这次连的是lip1
Paste_Image.png
再试一次
Paste_Image.png
这次连的是lip2,说明nginx的HA没问题,同时nginx备机的负载均衡也没有问题
Paste_Image.png

至此,netty集群部署引发的一系列安装和配置告一段落,相信在之后的项目中还会对nginx和keepalived的配置进行一些调试,之后遇到问题再解决吧

相关文章

  • 大数据运维问题记录(六)

    问题描述:公司之前的采集产品由于对大数据这块水土不服,入库慢等原因,再加上负责这个产品的团队全部走光,导致现在出了...

  • 教你制作最强运维监控大屏

    IT新一代运维大屏,数据驱动运维智能化 重新定义,运维监控平台 运维数据融合集成,构建最强运维平台 用户知识图谱化...

  • 大数据运维问题记录(九)

    问题描述:部门承接的某运营商的CRM项目日志查询出现延迟,最高延迟达半小时,严重影响业务运行。问题解决:首先对他们...

  • 大数据运维问题记录(一)

    问题描述:在hive里运行select count(1)操作一个表时,老是失败,但是其它sql确不报错能正常跑出结...

  • 大数据运维问题记录(三)

    问题描述:在resourcemanager页面查看到一些节点的Health report中报 1/4 local-...

  • 大数据运维问题记录(二)

    问题描述:一个项目组的同事反应他们的集群hive突然出现了问题,走mr就报错 问题解决:首先问了下他们最近做了些什...

  • 大数据运维问题记录(四)

    问题描述:有个hadoop集群,跑hive任务的时候慢,而且经常跑的跑的就挂了,报内存不够等等的相关异常,需要我们...

  • 大数据运维问题记录(五)

    问题描述:集群中原有采集程序从源文件入hbase出现积压,优化修改程序都无济于事,需要赶紧出个方案进行解决 问题解...

  • 大数据运维问题记录(八)

    问题描述:一个hbase集群出现数据倾斜,并且服务器经常会宕机问题解决:登录60010界面查看region的分布情...

  • 大数据运维问题记录(七)

    问题描述:公司中一个项目我们用netty接收厂商提供的数据入kafka,接收速度较慢,入kafka也比较慢,需要对...

网友评论

    本文标题:大数据运维问题记录(六)

    本文链接:https://www.haomeiwen.com/subject/lskzsttx.html