美文网首页
Rancher的4个监控项

Rancher的4个监控项

作者: Daniels_Cai | 来源:发表于2018-01-15 16:26 被阅读248次

    经过长期的生产实践,我们发现Rancher 生产环境中经常会遇到下面这4个问题。 我们整理出了这个四个问题发生的情景以及相关的监控脚本,提供给需要的朋友们。

    4个监控项

    1. ipsec 监控
    2. 主机 disconnect 监控.
    3. stack unhealthy 监控
    4. stack upgraded 监控

    监控项对应的脚本,以及如何部署

    准备工作

    1. 获取 Rancher api:
      1. 打开 Rancher 其中一个环境.
      2. 在顶部菜单中选择 API -> Keys,点击 “高级选项” -> “添加环境API KEY”
      3. 名称统一定为 monitor .
      4. 记录下 Access Key 与 Secret Key
    2. 获取Project ID
      1. 打开 Rancher 其中一个环境.
      2. 在顶部菜单中选择 API -> Keys,点击 “高级选项”
      3. 找到 端点,比如 http://rancher.wmcloud-qa.com/v2-beta/projects/1a5 , Proeject ID 即为 1a5

    1. IPSEC 监控

    监控原因

    实际工作中,偶尔会出现主机之间的IPSEC 通道断开,这会导致两台主机间的容器无法通信, 在生产中一旦发生该故障, 则会出现非常严重的生产事故。

    注意事项

    1. 所有Rancher主机都需要部署该监控
    2. 报警策略是,输出值改变即触发 S1 报警

    监控脚本

    #!/bin/bash
    c_id=`docker ps | grep ipsec-router | awk -F' ' '{ print $1 }'`
    #echo $c_id
    
    n=`docker exec $c_id swanctl -S | grep IKE_SAs | awk -F' ' '{ print $2 }'`
    echo $n
    

    2.主机 disconnect 监控

    监控原因

    很多原因会触发Rancher主机disconnect, 譬如 CPU 用满, 内存用满, 网络用满, 磁盘用满,系统load过高, CPU上下文切换过高。 一旦发生Rancher 主机 disconnect 就表明系统资源的使用已经出现严重问题, 需要运维人员手工紧急处理.

    注意事项

    1. 每一个Rancher Environment 需要一套 Access Key 与 Secret Key.
    2. 脚本名称 prod-respool-disconnect-monitor.sh
    3. 脚本内容, 需要修改的地方有 RANCHER_URL, RANCHER_ACCESS_KEY, RANCHER_SECRET_KEY, PROJECT_ID
    4. 报警策略是输出非0 即触发 S1报警

    监控脚本

    RANCHER_URL=rancher.wmcloud.com
    RANCHER_ACCESS_KEY=*****
    RANCHER_SECRET_KEY=*****
    # get project ID easily from the URL when you're in dashboard
    PROJECT_ID=1a163
    
    # get all disconnected hosts (YELLOW)
    list=`curl -s -k -u "${RANCHER_ACCESS_KEY}:${RANCHER_SECRET_KEY}" \
      "https://${RANCHER_URL}/v2-beta/projects/${PROJECT_ID}/hosts" \
      | jq '.data[] |  select(.state | contains("disconnected"))'  | jq -r .hostname `
    
    
    if [[ "X${list}" == "X" ]];
    then 
       echo '0'
       exit 0 
    else
       echo ${list}
       exit 127
    fi
    

    3. Stack unhealthy 监控

    监控原因

    出现Stack unhealthy 的情况很多,比如 应用程序启动失败, 对某个目录权限不足, 依赖的服务没有启动,Rancher主机故障等等。 无论哪一种情况,都表示Stack 处于非正常工作状态,需要运维人员立即进行处理。

    注意事项

    1. 每一个Rancher Environment 需要一套 Access Key 与 Secret Key.
    2. 脚本名称 prod-respool-stack-unhealthy-monitor.sh
    3. 脚本内容, 需要修改的地方有 RANCHER_URL, RANCHER_ACCESS_KEY, RANCHER_SECRET_KEY, PROJECT_ID
    4. 报警策略是输出非0 即触发 S1报警

    监控脚本

    #!/bin/bash
    
    RANCHER_URL=rancher.wmcloud.com
    RANCHER_ACCESS_KEY=***
    RANCHER_SECRET_KEY=***
    
    # get project ID easily from the URL when you're in dashboard
    PROJECT_ID=1a163
    
    # get all disconnected hosts (YELLOW)
    list=`curl -s -k -u "${RANCHER_ACCESS_KEY}:${RANCHER_SECRET_KEY}" \
      "https://${RANCHER_URL}/v2-beta/projects/${PROJECT_ID}/stacks" \
      | jq '.data[] |  select(.healthState != "healthy")'  | jq -r .name `
    
    
    if [[ "X${list}" == "X" ]];
    then 
       echo '0'
       exit 0 
    else
       echo '1'
       exit 127
    fi
    

    4. Stack upgrade 状态监控

    监控原因

    rancher 有一个bug, 当stack处于 upgraded 状态时,如果主机重启, 处于 upgraded 状态的service 都会处于stop 状态,并且无法自动恢复。 upgraded 状态存在的意义在于方便运维进行回滚,因此在监控时,保留24小时的缓冲时间

    注意事项

    1. 每一个Rancher Environment 需要一套 Access Key 与 Secret Key.
    2. 脚本名称 prod-respool-stack-unhealthy-monitor.sh
    3. 脚本内容, 需要修改的地方有 RANCHER_URL, RANCHER_ACCESS_KEY, RANCHER_SECRET_KEY, PROJECT_ID
    4. 报警策略是输出非0 ,并且持续24小时后,即触发 S2报警

    监控脚本

    #!/bin/bash
    
    RANCHER_URL=rancher.wmcloud.com
    RANCHER_ACCESS_KEY=***
    RANCHER_SECRET_KEY=***
    
    # get project ID easily from the URL when you're in dashboard
    PROJECT_ID=1a163
    
    # get all disconnected hosts (YELLOW)
    list=`curl -s -k -u "${RANCHER_ACCESS_KEY}:${RANCHER_SECRET_KEY}" \
      "https://${RANCHER_URL}/v2-beta/projects/${PROJECT_ID}/stacks" \
      | jq '.data[] |  select(.state == "upgraded")'  | jq -r .name `
    
    
    if [[ "X${list}" == "X" ]];
    then 
       echo 0
       exit 0 
    else
       echo 1
       exit 127
    fi
    

    相关文章

      网友评论

          本文标题:Rancher的4个监控项

          本文链接:https://www.haomeiwen.com/subject/ukrdoxtx.html