最近在edas中遇到ecs节点无法正常启停应用程序的问题,报错是agent已离线,官方解决方法为重启agent
sh /home/staragent/bin/staragentctl restart
然而尝试多次无法解决问题。。。。
由于业务系统受到影响,只得重启服务器,重启后可以暂时正常运行,但一段时间后又会变成无法启停的状态;
研究一段时间后无果,为了保证业务运行正常,只能在该节点下再添加一台ecs;
添加后,业务系统恢复正常,可以安心处理报错的这一个问题;
在检查服务器是否有问题时,发现每次出现异常时,服务器cpu都会被一个叫做pkla-check-auth的进程占满使用率,长时间如此,服务器就会出现故障,暂时先kill掉这个进程
使用如下命令,重装agent
wget -q -O /root/install.sh http://fileserver.edas.xxxxx.xx.xxx/install.sh && sh /root/install.sh -ak "16cb01525c8840309fc97ab405188f5f" -sk "fJWLmqAk2zYPUINOv/y+7mRnp2A=" -full -force
需要注意的是官方给的命令是没有-force的,因为已经安装过agent,重装时需要加上-force,否则可能无法正常安装;
等待安装成功后,节点恢复正常。
但是pkla-check-auth进程的问题仍然未找到根因
网友评论