美文网首页
ceph故障处理

ceph故障处理

作者: 春秋不做梦 | 来源:发表于2021-04-07 10:47 被阅读0次

1.   3 stuck requests are blocked > 4096 sec. Implicated osds 75

注意: 3 requests are blocked > 4096 sec 有可能是在数据迁移过程中, 用户正在对该数据块进行访问, 但访问还没有完成, 数据就迁移到别的 OSD 中, 那么就会导致有请求被 block, 对用户也是有影响的

处理方法:

# ceph health detail   找到osd.75的block

#ceph osd tree            找到osd.75对应的主机

#systemctl restart ceph-osd@75.service      重启对应的osd服务

 等待ceph对osd 执行 recovery 操作结束后恢复正常

2.    诊断磁盘故障,将故障磁盘踢出ceph集群

ceph osd down

处理方法:

1.重启该节点的osd服务

systemctl restart ceph  osd@ID.service

systemctl restart ceph osd.target,service

2.同步时间

service ntp  restart

3.查看网络是否正常

4.查看节点osd对应的磁盘是否正常

ceph-volume lvm list  查看osd对应的磁盘盘符

lsblk

5.将故障磁盘踢出ceph集群

sudo ceph osd out <id>  #停止故障osd

sudo ceph osd crush remove osd.<id> #清除osd配置

sudo ceph auth del osd.<id>

sudo ceph osd rm osd.<id>

6.更换新硬盘并添加到集群中去

cd /home/ubuntu/ceph

sudo ceph-deploy disk zap <IP> /dev/sdf  

sudo ceph-deploy osd create --bluestore <IP> --data /dev/sdf

3.ceph客户端请求响应延迟

#ceph health detail   报错信息如下:

MDS_CLIENT_LATE_RELEASE 1 clients failing to respond to capability release

    mds<hostname>(mds.0): Client <hostname> failing to respond to capability release client_id: 5374472

MDS_SLOW_REQUEST 1 MDSs report slow requests

    mds<hostname>(mds.0): 2 slow requests are blocked > 30 sec

处理方法:

清除次 ID 即可:https://blog.csdn.net/zuoyang1990/article/details/98530070

$ ceph daemon mds.<hostname> session ls|grep 284951

$ ceph tell mds.<hostname> session evict id=284951

如果报错如下:

$ ceph tell mds.<hostname>session evict id=284951

2020-08-13 10:45:03.869 7f271b7fe700  0 client.306366 ms_handle_reset on 10.100.21.95:6800/1646216103

2020-08-13 10:45:03.881 7f2730ff9700  0 client.316415 ms_handle_reset on 10.100.21.95:6800/1646216103

Error EAGAIN: MDS is replaying log

需要到 mds.0 节点执行,否则无法找到次 client。

转移走该节点的任务,重启该节点,挂载共享盘,开启任务接受

4.    1 MDSs report slow requests

一般是过段时间会自动恢复正常,若长时间不恢复i,处理方法如下:

重启 mon 即可解决:$ systemctl restart ceph-mon.target

如果无法解决需要重启 mds 解决: $ systemctl restart ceph-mds@${HOSTNAME}

5.    1 full osd(s)            2 nearfull osd(s)

https://docs.ceph.com/en/latest/rados/troubleshooting/troubleshooting-osd/#no-free-drive-space
$ ceph osd dump | grep full_ratio

full_ratio 0.95

backfillfull_ratio 0.9

nearfull_ratio 0.85

处理方法:

$ ceph osd  reweight 4 0.85   手动调整osd权重

$ ceph osd reweight-by-utilization 110 0.3 10 自动调整

$ ceph osd crush reweight osd.11 0.5     #调整WEIGHT

给cephfs扩容或着清除不需要的数据

6. clock skew detected on mon.[ hostname ]

   8 osds down

#检查网络是否异常:

ping $hostname 

9 packets transmitted, 4 received, 55% packet loss, time 7998ms #发现又掉包现象

#处理好网络问题,重启异常节点的 osd

$ sudo systemctl restart ceph-osd.target.service

$ sudo systemctl restart ceph-mon.service

$sudo systemctl restart ntp #同步节点时间

ceph官方文档 http://docs.ceph.org.cn/

相关文章

  • ceph故障处理

    1. 3 stuck requests are blocked > 4096 sec. Implicated os...

  • ceph rgw故障处理

    前言 这里想总结下,平时遇到的ceph rgw相关的故障和对应的处理方法。方便下次遇到类似问题之后,能快速有效的找...

  • ceph分布式存储-单个Ceph节点宕机处理

    5. 单个Ceph节点宕机处理 在某些情况下,如服务器硬件故障,造成单台 Ceph 节点宕机无法启动,可以按照本节...

  • ceph分布式存储-常见MON故障处理

    1. 常见 MON 故障处理 Monitor 维护着 Ceph 集群的信息,如果 Monitor 无法正常提供服务...

  • ceph osd 常见故障处理

    进行 OSD 排障前,先检查一下 monitors 和网络。如果 ceph health 或 ceph -s 返回...

  • ceph分布式存储-常见OSD故障处理.md

    2. 常见 OSD 故障处理 进行 OSD 排障前,先检查一下 monitors 和网络。如果 ceph heal...

  • 线上故障处理书目录

    线上故障处理之故障信息获取源 线上故障处理之处理流程 线上故障处理之故障后处理

  • 分布式存储

    Ceph Ceph是一个可靠、自动重均衡、自动恢复的分布式存储系统。Ceph没有单点故障的问题,数据强一致性,在部...

  • 集群异常下的IO

    问题 集群出现非致命性故障后,CEPH如何处理IO。 出于对问题的简化,假设分析场景为size为2的情况下rbd的...

  • Ceph介绍

    OpenStack和Ceph是一个了不起的组合 Ceph提供统一的横向扩展存储,使用带有自我修复和智能预测故障功能...

网友评论

      本文标题:ceph故障处理

      本文链接:https://www.haomeiwen.com/subject/iwpykltx.html