某日,在监控系统中,发现多个业务线有段时间(持续100s)没有任何访问量,之后马上询问了相关运营人员,并没有用户投诉。回到工位再查看后端日志,在这段时间内,也没有发现程序运行有任何问题。然后,就询问了网络管理员,查看网络设备流量,也没有发生异常,真实怪哉,怪哉。
能够引起所有业务线出现同样的问题,一定是某一种全局性的基础设施。
正在一筹莫展中时,邻桌的同事,脑洞大开,猜测是系统时间变化了(I服了U)。咦,这个假设如果成立的话,基本上可以解释排查过程中遇到的各种线索。
于是乎,询问运维的同学,这个时间段,是否对时间服务器做什么修改了。得到的答案是,时间服务器在这个时间段内做的虚拟机漂移。虚拟机从物理服务器A移动到了物理服务器B,继续深入查看,发现服务器A比服务器B大概慢了100s。
这个时候,问题基本可以解释清楚了。我们的时间服务器,由于某种原因,没有和外部时间服务器同步,也就是说,我们的所有的系统过的是我们自己的机房时间,并不是北京时间。当时间服务器漂移之后,才正在过上了北京时间。
说明:
- 物理服务器B基本上是准确的北京时间
- 机房内,所有的服务器都配置了时间自动同步到时间服务器
- 漂移后的虚拟机使用了物理机的时间设置(只是猜测,没有验证)
网友评论