问题描述:
aws环境,kuboard无法访问k8s集群,报错如下:
image.png image.png
故障分析:
1、检查 kuboard-agent 状态:正常。
kubectl get pods -n kuboard -o wide -l "k8s.kuboard.cn/name in (kuboard-agent-14401oa, kuboard-agent-1oa-2)"
2、测试连通性 TCP
nc -vz 172.29.*.* 10081
输出结果正常。
3、检查 kuboard-agent 日志
kubectl logs -f -n kuboard -l "k8s.kuboard.cn/name in (kuboard-agent-14401oa, kuboard-agent-14401oa-2)"
kuboard-agent 连接 kuboard-server 443端口失败。网络故障。
image.png处理方法:删除导入的集群,重新导入。
1、kuboard页面,点击删除。
image.png
2、从kuboard中删除集群sirun-eks
image.png
3、导入集群
名称:sirun-eks
描述:sirun-ff-eks
image.png
4、信息填写完成后,查看导入状态,
查看kuboard-agent状态,
image.png
5、kuboard-agent启动后,集群还是异常。报错如下:
start error: group should have same remote port
6、在aws控制台查看pod状态和Deployment,发现上次故障Deployment依旧存在,使用kubectl删除。
6.1、找出所有命名空间中的所有部署:
kubectl get deploy -A
image.png
6.2、然后从命名空间中删除带有 deploymentname 的部署。
kubectl delete deploy kuboard-agent-14401oa -n kuboard
然后从命名空间中删除带有 deploymentname 的部署。
kubectl delete deploy kuboard-agent-14401oa-2 -n kuboard
7、此时k8s集群导入成功。
image.png
8、刷新界面,全部正常。
image.png
网友评论