在生活中、工作中我们经常掉入自己或者别人之前挖的“坑”,不得不手忙脚乱的处理这些”坑“,简单说就是填“坑”。周日和周一,我都在应付之前工作中的埋的“坑”,连日记也没来得及写。周日看完《惊奇队长》,就不断收到工作微信消息,说线上环境出问题、很多客户注册掉线、入会失败,结果是武汉有一个站点的两台接入服务器都宕机了。我回到家,先看看出了什么事。花了几分钟,搞清楚状况后,先把DNS修改到武汉另外一个站点上,先让那些等待的客户可以继续使用服务。然后,试图恢复宕机的站点上的服务器,但是那边机器毫无相应。只好和武汉机房的同事联系,看看能不能让机房同事重启服务器。这是遇到了第二个坑,我找不到宕机的物理机。之前武汉服务器购买、上架、做虚机都是一个运维小伙处理的。过完年他因为家里事情,就离职了。新的运维同事还没有来报道,处理武汉服务器小伙离职的时候,给了好几个文档,当时他走得匆忙,我也没来得及仔细阅读他的文档,这回出了问题,只好硬着头皮读他写的文档。找了半天没找到,只好通过微信和他联系,好在他还记得一些信息,比如物理机写在那个文件里、物理机的登录密码(这个不在文档里)。搞清楚机器大致位置了已经到了周一上午。服务器上标示的ip地址和实际使用的ip地址不匹配,这是第三个坑。只好让机房的工程师,从三台服务器中试一试哪台有问题。联系上武汉机房,又是电话、又是发邮件、外加微信号,几乎能用的通信手段,我都尝试了。最终,定位到一台物理机死机了,机房要求发邮件确认重启机器,并且询问了登录密码。最后重启物理机以后,三台虚拟服务器都起来了。我远程登录上物理机,看了虚机配置,同一站点上的两台虚机起在相同物理机上,结果物理机锁死,整个站点不可用。这是个经典的坑,也是前面没提到的第一个坑,通常是不应该把同一物理机上的虚机放在一个站点里,好像人们常说的别把所有鸡蛋放到一个篮子里。假如当初运维小伙在布机器的时候,我多问一句,就不会把两个虚机放在一个站点里,这样物理机宕机,我只要稍修正一下DNS,服务就不会中断。假如我在和他交接的时候,多看一下文档,多问几句,就可以避免花半天时间找物理机地址。假如他在配置好服务器地址,让机房的人更新一下物理机上的标签,我们也能省一个小时的时间找哪一台服务器是出问题的服务器。这些假如都没有发生,我就不得不花了一天半多的时间来填这些坑,而没有时间做更重要的事情。为什么会出现这样的事情?因为,我和伙伴忽视了本该注意到的事情,我们过于乐观的假定:意外不会发生。我们总是假定一切都在按部就班的进行着,但是生活和工作中意外总是不断的发生。我们必须给自己或是我们的工作足够的冗余度,好在意外发生的时候更从容的应对。比如,我们上架服务器的时候,并不在现场,但是我们应该留下足够的信息保证在最短的时间里找到具体哪一台服务器。我们在工作交接的时候,先列个清单,再细致的过一遍清单,保证足够的信息被传递。我们在规划线上网络的时候,仔细审核一下服务器的具体分布,保证互相备份,避免一台物理机出问题影响整个地区的服务。这些事情可能当时做的时候都要花一些时间,也很琐碎,但是,如果不做,就是给自己或者别人挖坑,早晚有人会掉坑里。这真是非常痛的领悟啊。
新的mac笔记本到了,我很满意,新的触摸板很灵敏,机器相应也快,键盘也很舒服,感觉很值得,如果可以买美国股票的话,我一定考虑苹果的股票。说到股票,昨天A股反弹了,没有继续下跌,看来管理层在科创板推出之前,还是会继续烘托股市。
网友评论