美文网首页我爱编程
18.apache-hadoop之kafka与zookeeper

18.apache-hadoop之kafka与zookeeper

作者: 经纶先生 | 来源:发表于2018-03-08 10:04 被阅读0次

一.5台zookeeper集群安装详细步骤

1.前期准备工作

(1)首先下载zookeeper软件,在官网即可http://www.apache.org,下载页面:http://apache.fayea.com/zookeeper/

(2)安装JDK要求6以上,java-version查看下

(3)zookeeper生产环境版本为 3.4.8 ------如无明显bug,后续继续采用3.4.8

(4)修改五台主机的hostname,拿一台举例

sed -i "s#HOSTNAME=localhost.localdomain#HOSTNAME=zk-kafka001#g"  /etc/sysconfig/network
hostname zk-kafka001

(5)修改/etc/hosts,添加

10.0.150.34 zk-kafka001
10.0.150.35 zk-kafka002
10.0.150.36 zk-kafka003
10.0.150.37 zk-kafka004
10.0.150.38 zk-kafka005

(6)检测步骤:

[root@zk-kafka005 ~]# ping zk-kafka003
PING zk-kafka003 (10.0.150.36) 56(84) bytes of data.
64 bytes from zk-kafka003 (10.0.150.36): icmp_seq=1 ttl=64 time=1.09 ms
64 bytes from zk-kafka003 (10.0.150.36): icmp_seq=2 ttl=64 time=0.057 ms

(7)上传文件并解压

cd /app/zpy/
rz 上传
tar xzvf zookeeper-3.4.8.tar.gz
mv zookeeper-3.4.8 zookeeper

(8)修改环境变量
修改/etc/profile

# Zookeeper
ZOOKEEPER_HOME=/app/zpy/zookeeper
export PATH=$ZOOKEEPER_HOME/bin:$PATH

source /etc/profile

(9)拷贝配置文件

cd /app/zpy/zookeeper/conf
cp zoo_sample.cfg zoo.cfg
2.zookeeper配置文件解释说明
图片.png

tickTime:这个时间是作为 Zookeeper 服务器之间或客户端与服务器之间维持心跳的时间间隔,也就是每个 tickTime 时间就会发送一个心跳。

dataDir:顾名思义就是 Zookeeper 保存数据的目录,默认情况下,Zookeeper 将写数据的日志文件也保存在这个目录里。

clientPort:这个端口就是客户端连接 Zookeeper 服务器的端口,Zookeeper 会监听这个端口,接受客户端的访问请求。

下面这两个可以不需要掌握:(默认值就好)
initLimit:这个配置项是用来配置 Zookeeper 接受客户端(这里所说的客户端不是用户连接 Zookeeper 服务器的客户端,而是 Zookeeper 服务器集群中连接到 Leader 的 Follower 服务器)初始化连接时最长能忍受多少个心跳时间间隔数。当已经超过 5个心跳的时间(也就是 tickTime)长度后 Zookeeper 服务器还没有收到客户端的返回信息,那么表明这个客户端连接失败。总的时间长度就是 52000=10 秒
syncLimit:这个配置项标识 Leader 与Follower 之间发送消息,请求和应答时间长度,最长不能超过多少个 tickTime 的时间长度,总的时间长度就是2
2000=4 秒

最后需要添加:

server.1=10.0.150.34:2888:3888
server.2=10.0.150.35:2888:3888
server.3=10.0.150.36:2888:3888
server.4=10.0.150.37:2888:3888
server.5=10.0.150.38:2888:3888

 server.A=B:C:D:
A 是一个数字,表示这个是第几号服务器;
B 是这个服务器的 ip 地址;
C 表示的是这个服务器与集群中的 Leader 服务器交换信息的端口;
D 表示的是万一集群中的 Leader 服务器挂了,需要一个端口来重新进行选举,选出一个新的 Leader,而这个端口就是用来执行选举时服务器相互通信的端口
3.修改配置文件及其他配置

1)sed-i"s#dataDir=/tmp/zookeeper#dataDir=/data/zpy/zookeeper#g" /app/zpy/zookeeper/conf/zoo.cfg

2)mkdir -p /data/zpy/zookeeper

3)在zoo.cfg最后添加

server.1=10.0.150.34:2888:3888
server.2=10.0.150.35:2888:3888
server.3=10.0.150.36:2888:3888
server.4=10.0.150.37:2888:3888
server.5=10.0.150.38:2888:3888

4)创建myid文件,并输入编号
echo "1" > /data/zpy/zookeeper/myid
其他四台分别为 2 3 4 5

5)修改zookeeper的启动内存大小
进入zk的bin目录下
vim /app/zpy/zookeeper/bin/zkServer.sh (修改zk的启动脚本)
添加:JVMPARAM="-Xms1G -Xmx4G -Xmn2G"

参数解释说明:
java -Xmx3550m -Xms3550m -Xmn2g -Xss128k
-Xmx3550m:设置JVM最大可用内存为3550M。
-Xms3550m:设置JVM初始内存为3550m。此值可以设置与-Xmx相同,以避免每次垃圾回收完成后JVM重新分配内存。
-Xmn2g:设置年轻代大小为2G。整个JVM内存大小=年轻代大小 + 年老代大小 + 持久代大小。持久代一般固定大小为64m,所以增大年轻代后,将会减小年老代大小。此值对系统性能影响较大,Sun官方推荐配置为整个堆的3/8。
-Xss128k:设置每个线程的堆栈大小。JDK5.0以后每个线程堆栈大小为1M,以前每个线程堆栈大小为256K。更具应用的线程所需内存大小进行调整。在相同物理内存下,减小这个值能生成更多的线程。但是操作系统对一个进程内的线程数还是有限制的,不能无限生成,经验值在3000~5000左右。

修改:


图片.png

上面这里添加 $JVMPARAM

启动zk后可以ps -ef | grep zookeeper 查看启动内存

也可以jmap -heap zk进程号 查看进程使用内存

4.启动zookeeper集群
chown -R hadoop:hadoop /app/zpy/zookeeper
chown -R hadoop:hadoop /data/zpy/zookeeper

5台最好同时启动,间隔时间不要相差太大,并且需要切换到hadoop用户

su hadoop
cd /app/zpy/zookeeper/bin/
./zkServer.sh start

报错信息在:
tailf -n 200 /app/zpy/zookeeper/bin/zookeeper.out

5.检查启动状态

[hadoop@zk-kafka05 bin]# ./zkServer.sh status

图片.png
图片.png
Zk 端口:
图片.png
6.检测

zk是有客户端工具的,可以下载使用,但是zk程序中也自带了程序监测
进入zk的bin目录下

[hadoop@zk-kafka01 bin]# sh zkCli.sh 
[zk: localhost:2181(CONNECTED) 0] ls /
[kafkagroup, zookeeper]

其中 kafkagroup,  zookeeper 就是两个znode ,集群上每台机器上都有这个znode,也印证了zookeeper 的所有服务器中的所有数据结构(树形结构)是完全相同的
7.Zkui zookeeper的图形化工具:

(1)拉取代码(yum install -y git)
git clone https://github.com/DeemOpen/zkui.git

(2)构建并安装程序

cd zkui

wget http://repos.fedorapeople.org/repos/dchen/apache-maven/epel-apache-maven.repo -O /etc/yum.repos.d/epel-apache-maven.repo

yum install apache-maven

mvn clean install
之后你会发现生成了target文件夹

(3)修改配置文件

cp config.cfg target/

cd target/

修改config.cfg

serverPort=9091 #指定端口
zkServer=172.60.0.107:2181,localhost:2181 #指定leader 
userSet = {"users": [{ "username":"admin" , "password":"admin","role": "ADMIN" },{ "username":"appconfig" , "password":"appconfig","role": "USER" }]} #设置登录用户及其权限

(4)启动程序至后台

cd /app/zpy/zookeeper/zkui/target
nohup java -jar zkui-2.0-SNAPSHOT-jar-with-dependencies.jar &

(5)用浏览器访问
http://172.16.100.217:9091/

用户名: admin 密码admin 这个用户是可以建节点之类的admin用户
另外还有一个 appconfig ,只能查看
以上两个用户在登录界面可以看到用户名及密码

二.Kafka 5台集群安装详细步骤

1.安装前准备
wget http://mirrors.hust.edu.cn/apache/kafka/0.9.0.1/kafka_2.10-0.9.0.1.tgz

scp -r  -P 20755 kafka  root@10.0.150.35:/app/zpy/
2.修改配置文件

config下的 server.properties
broker.id=10 --这个id如果部署的是kafka集群,id是不能一样的
port=9092 --默认kafka端口,如果一台机器上面部署了多个kafka实例,需要两个实例端口不一样
log.dirs=/data/zpy/kafka-logs 这个需要修改,这个是存topic相关信息
生产例子:


图片.png

num.partitions=1
特别注意,这个叫做默认参数,如果你生产topic时候不设置,那么这个就起作用,如果生产的时候指定,他就不起作用。

zookeeper.connect=10.0.150.34:2181,10.0.150.35:2181,10.0.150.36:2181,10.0.150.37:2181,10.0.150.38:2181/kafkagroup
kafka实现功能需要zookeeper调度,所以这是与zk单机或者集群的连接,上面是与集群连接的方式,也可以去掉/kafkagroup,但是zk的znode结构就会比较混乱,所以建议加一个路径

图片.png

zookeeper.connection.timeout.ms=6000连接zk超时时间

3.修改环境变量

修改/etc/profile

# kafka
KAFKA_HOME=/app/zpy/kafka
export PATH=$KAFKA_HOME/bin:$PATH
4.修改kafka启动脚本(调节启动内存占用大小)

cd kafka/bin
修改kafka-server-start.sh

图片.png

kafka启动(一定后台启动):
启动前需要修改权限

chown -R hadoop:hadoop /app/zpy/kafka
chown -R hadoop:hadoop /data/zpy/kafka
su hadoop
cd /app/zpy/kafka/bin/
nohup  ./kafka-server-start.sh  ../config/server.properties &

启动后
查看zk集群的znode节点信息 zk是有客户端工具的,可以下载使用,但是zk程序中也自带了程序监测
进入zk的bin目录下

[root@zk-kafka01 bin]# sh zkCli.sh
Connecting to localhost:2181
Welcome to ZooKeeper!
JLine support is enabled
WATCHER::
WatchedEvent state:SyncConnected type:None path:null
[zk: localhost:2181(CONNECTED) 0] ls /
[kafkagroup, zookeeper] 

可以看到我们在kafka里设置的kafkagroup
5.创建一个topic
./kafka-topics.sh --create --zookeeper 10.0.150.34/kafkagroup --replication-factor 1 --partitions 1 --topic aaa

Created topic "aaa".
图片.png
5.生产消息:

./kafka-console-producer.sh --broker-list 10.0.150.35:9092 --topic fffffff

6.消费消息:
./kafka-console-consumer.sh --zookeeper 10.0.140.19:2181/kafka --topic imp-imps-app-web --from-beginning

./kafka-console-producer.sh --broker-list 10.0.140.26:9092 --topic message-centre-q1

./kafka-console-consumer.sh --zookeeper 10.0.140.26:2181/kafka --topic message-centre-q1 --from-beginning

./kafka-console-producer.sh --broker-list 10.0.140.26:9092,10.0.140.26:9093,10.0.140.26:9092 --topic message-centre-q1
7.Kafka扩容
修改partitions 和 replicas步骤:

imp-imps-app-web   3  3 

imp-opst-im        3  3   

SIAILogRecod       3  3  #生产目前没有

SIAIrecord4bohai   3  3

1.kafka 扩容
首先按照搭建步骤,在其他机器上搭建集群,kafka的配置文件中 zkconnect 要保持与原kafka一致

2.验证kafka新节点是否加入集群成功,这个应该去zookeeper的zkCli.sh 去查看
[zk: localhost:2181(CONNECTED) 3] ls /kafka/brokers/ids
[27, 28, 29]

3.创建了一个topic
[root@zk-kafka001 bin]# ./kafka-topics.sh --create --zookeeper 10.0.150.27:2181/kafka --replication-factor 1 --partitions 1 --topic mmm

2.列出所有topic
./kafka-topics.sh --list --zookeeper 10.0.150.27:2181/kafka

3.修改了partiton数量
./kafka-topics.sh --zookeeper 10.0.150.27:2181/kafka --alter --topic mmm --partitions 3 

4.查看一个topic的所有详细信息
bin/kafka-topics.sh --describe --zookeeper 10.0.150.27:2181/kafka --topic mmm

Topic:eee   PartitionCount:3    ReplicationFactor:1 Configs:
    Topic: eee  Partition: 0    Leader: 37  Replicas: 37    Isr: 37
    Topic: eee  Partition: 1    Leader: 37  Replicas: 37    Isr: 37
    Topic: eee  Partition: 2    Leader: 38  Replicas: 38    Isr: 38

5. 在当前目录创建一个json文件
reassignment-node.json

加入内容:

{
    "partitions": [
        {
            "topic": "eee",
            "partition": 0,
            "replicas": [
                34,
                35
            ]
        },
        {
            "topic": "eee",
            "partition": 1,
            "replicas": [
                34,
                35,
                36
            ]
        }
    ]
}

6.修改replicas
./kafka-reassign-partitions.sh --zookeeper 10.0.150.27:2181/kafka --reassignment-json-file a.json  --execute 

7.验证
./kafka-topics.sh --describe --zookeeper 10.0.150.34:2181/kafka --topic mmm

Topic:eee   PartitionCount:3    ReplicationFactor:2 Configs:
    Topic: eee  Partition: 0    Leader: 34  Replicas: 34,35 Isr: 34,35
    Topic: eee  Partition: 1    Leader: 34  Replicas: 34,35,36  Isr: 36,34,35
    Topic: eee  Partition: 2    Leader: 38  Replicas: 38    Isr: 38

8.查看kafka版本

kafka查看版本需要查看libs下面jar包的名称。。。。
cd /app/zpy/kafka/libs

相关文章

网友评论

    本文标题:18.apache-hadoop之kafka与zookeeper

    本文链接:https://www.haomeiwen.com/subject/aursfftx.html