美文网首页大数据运维程序员
大数据运维问题记录(八)

大数据运维问题记录(八)

作者: 火车飞侠 | 来源:发表于2016-10-24 11:14 被阅读99次

问题描述:一个hbase集群出现数据倾斜,并且服务器经常会宕机
问题解决:登录60010界面查看region的分布情况,发现region分布不均衡

Paste_Image.png

同时Regions in Transiton报如下问题:

Paste_Image.png

重启master server 问题依旧
执行assign 'REGIONNAME'命令后问题依旧
同时查看该region所在regionserver的信息发现报如下错误

Paste_Image.png Paste_Image.png

发现是有一个phoenix表的那个region一直加载不了,确定我们没有用到phoenix,找到该region的editlog删除掉后重新assign,就不报Regions in Transition信息了
过一会查看region分布情况如下,region分布算是均衡了

Paste_Image.png

查看dn列表

Paste_Image.png

发现还是有些服务器的数据还是比较多,找出存储较大的表,并且查看这些表的region大小,发现数据还算均衡

Paste_Image.png

对这些大表执行major_compact过段时间看dn列表中的数据情况发现有所缓解

Paste_Image.png

总结:数据不均衡的问题主要是有一个phoenix表的那个region一直加载不了,导致hbase balancer启动不了,phoenix版本和hbase不适配还会造成服务器偶尔宕机,经过删除有问题region的editlog,重新assign可恢复,同时每天晚上对一些大表进行major_compact可以缓解数据倾斜的情况

相关文章

  • 大数据运维问题记录(八)

    问题描述:一个hbase集群出现数据倾斜,并且服务器经常会宕机问题解决:登录60010界面查看region的分布情...

  • 教你制作最强运维监控大屏

    IT新一代运维大屏,数据驱动运维智能化 重新定义,运维监控平台 运维数据融合集成,构建最强运维平台 用户知识图谱化...

  • 大数据运维问题记录(九)

    问题描述:部门承接的某运营商的CRM项目日志查询出现延迟,最高延迟达半小时,严重影响业务运行。问题解决:首先对他们...

  • 大数据运维问题记录(一)

    问题描述:在hive里运行select count(1)操作一个表时,老是失败,但是其它sql确不报错能正常跑出结...

  • 大数据运维问题记录(三)

    问题描述:在resourcemanager页面查看到一些节点的Health report中报 1/4 local-...

  • 大数据运维问题记录(二)

    问题描述:一个项目组的同事反应他们的集群hive突然出现了问题,走mr就报错 问题解决:首先问了下他们最近做了些什...

  • 大数据运维问题记录(四)

    问题描述:有个hadoop集群,跑hive任务的时候慢,而且经常跑的跑的就挂了,报内存不够等等的相关异常,需要我们...

  • 大数据运维问题记录(五)

    问题描述:集群中原有采集程序从源文件入hbase出现积压,优化修改程序都无济于事,需要赶紧出个方案进行解决 问题解...

  • 大数据运维问题记录(六)

    问题描述:公司之前的采集产品由于对大数据这块水土不服,入库慢等原因,再加上负责这个产品的团队全部走光,导致现在出了...

  • 大数据运维问题记录(七)

    问题描述:公司中一个项目我们用netty接收厂商提供的数据入kafka,接收速度较慢,入kafka也比较慢,需要对...

网友评论

本文标题:大数据运维问题记录(八)

本文链接:https://www.haomeiwen.com/subject/udqluttx.html