美文网首页
集群重启详述

集群重启详述

作者: 龙葵1992 | 来源:发表于2018-12-08 18:21 被阅读0次

简述:

在测试过程中经常遇到机器大数据底层服务异常或者是某一台节点异常宕机,因此需要重启大数据底层服务,运维人员不一定能够第一时间响应,因此需要具备一定的集群基本技能,具体步骤梳理如下。

集群底层的关系图,有上至下分别是:SSSD、krd、LDAP、BIND,SSSD、krd、LDAP 是租户相关的服务,SSSD是在机器重启的时候会默认重启,每台机器上都有这个服务,也有可能出现异常情况;Krb、LDAP是只有机器上有该服务,一般也会有两个节点,进行主备;BIND是DNS服务节点,重启机器后也需要进行启动。

一、启动Ldap、kerbores

使用root账号:

/data/ldap/libexec/slapd  -f /data/ldap/etc/openladp/slapd.conf

检查启动是否成功ps –aux |grepldap

/data/krb/sbin/krb5kdc

检查启动是否成功:ps –aux|grepkrb

/data/krb/sbin/kadmind

检查启动是否成功:ps –aux|grep kr

Service sssd restart

使用kerb的账号查看id,查看进程是否正常。

二、启动DNS服务

在dns服务的节点上执行命令:

/data/bind/sbin/named–c /data/bind/etc/named.conf

检查是否启动成功:ps –aux |grep named

配置其他机器的dns客户端:在文件/etc/resolv.conf文件下配置nameserver 10.146.30.15(ip)

检查是否配置成功,如检查node1的配置:nslookupn1.dsj.migu.cn

三、启动ntpd服务

在集群所有节点上,执行servicentpd restart

四、zookeeper

切换到hadoop账户

在所有zk所在的节点zookeeper

bin目录下执行./zkserver.sh  start启动

检查./zkserver.sh

status查看zk的状态

(如不小心使用了root账号启动后,需要删除zookeeper.out日志文件,不然会导致hadoop账号启动zk失败)通过jps可以查看进程是否存在。

五、启动hadoop(hdfs、yarn

在hdfs的namenode所在的节点上执行以下命令:echo $HADOOP_HOME,查看hadoop的安装路径。

进入$HADOOP_HOME/sbin下,执行start-dfs.sh启动hadoop相关服务

启动完毕后再次执行start-dfs.sh,打印日志:“stop it first”证明已经启动成功了。

这里面包含hdfs相关的进程:包含namenode、journal、zkfc、datanode服务,可通过jps查看到。

如果某一台机器的某个应用启动失败,则需进入对应机器检查原因,并单独启动,

如启动namenode命令:sbin/hadoop-daemon.sh start namenode

六、启动yarn

在当前目录下执行./start-yarn.sh启动集群yarn进程。

可通过jps查看:

七、启动hive

hive的元数据存放在mysql中,因此如要成功启动hive,需要启动hive元数据存放的mysql:echo $HIVE_HOME,查看hive的安装路径;

进入HADOOP_HOME/conf下,打开文件:hive-site.xml;

查看到mysql使用的10.123.30.16上的mysql,登录到机器10.123.30.16,使用root账户,切换到mysql账户,并执行命令:vim /etc/my.cnf 查看mysql的安装路径

进入/data/mysql/mysql-5.7.22;

执行启动命令:./bin/mysqld_safe –user=mysql &

查看是否启动成功:

(1)ps –ef |grep mysql

(2)在安装了hive客户端的机器上执行:hive命令进入hive命令行;

执行简单的语句select count(*) from tablename;检查hive是否正常。

八、spark检查

spark只是客户端,启动了yarn便可以使用spark。

在集群中任意节点执行:spark-sql可进入spark命令行。

执行简单的语句select

count(*) from tablename;检查spark是否正常。

注意不能使用select * 来检查,因为这种并不会使用spark的计算引擎。

九、hbase启动

Echo $HBASE_HOME ;

进入$HBASE_HOME/bin;

执行:./start-hbase.sh

检查hbase是否正常:(1)输入hbase shell命令(2)list;

Ps:停止集群也尽量按照一定顺序来1、hbase   2、Hadoop  3、zookeeper

另:集群重启后redis、nfs等还需要重新启动,可联系运维处理。

相关文章

  • 集群重启详述

    简述: 在测试过程中经常遇到机器大数据底层服务异常或者是某一台节点异常宕机,因此需要重启大数据底层服务,运维人员不...

  • Zookeeper高可用集群 、 分布式消息队列Kafka 、

    Hadoop Hadoop集群及组件 zookeeper集群图例 zookeeper集群 集群安装 1、重启云主机...

  • Flink的重启策略

    Flink的重启策略 Flink支持不同的重启策略,这些重启策略控制着job失败后如何重启。集群可以通过默认的重启...

  • Elasticsearch系列---生产集群部署(下)

    概要 本篇继续讲解Elasticsearch集群部署的细节问题 集群重启问题 如果我们的Elasticsearch...

  • elasticsearch重启

    elasticsearch集群重启一般采用滚动重启方案。即每次重启一个节点,等该节点重启完成后,再重启下一个节点,...

  • Hadoop集群及组件

    zookeeper集群 集群安装 1、重启云主机 hadoop1,node-0001,node-0002,node...

  • Elasticsearch 100问(1-30)

    第1问 问:重启集群后,出现了unassigned shards, 是什么原因: 答:集群的shard数量较多,在...

  • 108_es生产集群版本升级之基于集群整体重启策略进行2.x到5

    108_es生产集群版本升级之基于集群整体重启策略进行2.x到5.x的大版本升级 滚动升级策略,集群,集群里面有多...

  • Flink重启策略

    重启机制 Flink支持不同的重启策略,以在故障发生时控制作业如何重启 集群在启动时会伴随一个默认的重启策略,在没...

  • es6.2.4集群重启

    有时候对集群进行配置,增删硬件,升级节点,需要重启集群。若果直接kill掉,集群会认为该节点挂掉了,开始转移数据。...

网友评论

      本文标题:集群重启详述

      本文链接:https://www.haomeiwen.com/subject/mbseqqtx.html