说明:下文说的这个产品是一个大的框架下大概念的产品(A),包括很多单独的子产品/系统(a,b,c,d等)
01 人员单点问题
今天早上,接到现场项目经理的投诉,昨天凌晨硬件故障,修复后,我们的应用起不来,联系了a产品的负责人,联系不上。导致前台停业8个小时。项目经理气愤的说,昨天晚上他不在,如果在的话,就直接给a产品负责人的老总打电话了。可是关键问题在于,就算给老总打了电话,也没用,因为,a产品负责人是唯一的能搞定这个产品的人,其他人连懂的都没有,所以,联系不上这个人,一切就停滞了。
这又一次暴露出了我们A产品的问题,大面积的去推广,却没有强大的团队支撑,不仅仅a产品,另外相关的几个产品(b,c,d等)同样也面临着无备份的情况。我们都知道设计系统,不能让系统有单点,因为万一出了问题,就整个down了。所以,做产品真的很难,产品研发出来,落地怎么落,落地后的运维怎么办?也就是一线运维人员和二线的研发人员之间有什么关系,如何分工等?这些都是要提前想清楚的。
02 落地
A产品落地的时候,因为A产品下的子产品是分属于不同的产品线的,所以,按照公司正常的落地流程交接给相应的产品线即可。每个产品线提供技术负责人(一般是我们的产品负责人)负责协调、推动落地。在落地初期,主要的问题是大家对我们的产品不熟悉,有那么多的what?what?what?why?why?why?,弄得落地过程不顺。为了解决这个问题,我们选取了一个标杆项目,我们几个主要的总负责人参与到项目中,帮项目一起梳理好什么时间点该干什么,跟他们一起推动计划执行和问题解决,并形成了《落地部署手册》,为以后落地的项目提供了标准的行为的指导。
当然,有了这个文档,不能解决一切问题,有了新的落地项目,他们还是有很多what?what?what?,这个时候,我们就可以先让他看文档,然后基于文档提出问题,针对问题进行解答,落地相对顺利了些。
渐渐的,有几个商务项目成功落地了,本以为,到此为止了,但是新的问题也出现了。
03 运维
有一个项目,上线后,系统出现问题,这就牵扯出来运维的问题。
考虑到,我们A产品人员不足,如果大面积的推广,靠研发团队的力量肯定解决不了;另外,还有一个重要的原因是发生了故障后,本地的运维在现场,能第一时间联系上,而且,现场排查问题更方便快捷,否则,靠远程解决,能不能连上环境还是个问题,就算连上了,沟通也是最大的问题,通常这边说了半天了,那边可能忙于做其他的检查接不上话,整体问题的了解,故障的重现等都会拖延,所以,当时想的解决办法是落地后的运维落地了本地。
这个办法好是好,但是也存在下问题。一方面当地是否有能做此项运维工作的人(工作饱和问题)需要每一个落地项目进行安排,另一个是产品的交接也存在困难,因为本身产品是新产品,也采用了一些新技术和新框架,掌握的人不多,另外,远程交接,也存在一些问题。
但是,考虑到各个省份基本有PaaS平台的运维人员,A产品的运维可以考虑兼顾,还是定了运维就在本地。
就是今天发生故障的这个项目,我们已经协商好后续的维护由他们招人完成,但是,他们的人一直没有招上来,所以这块出了问题,还只能找产品团队却又出现了人员单点的问题。这块其实以前也提过,A产品的子产品每个都要有备份,但是,招聘也一直没有进度,也就慢慢的忽略了。
04 故障解决与反思
所以,事情发生后,赶快去找了领导,沟通了在目前人员招聘不上来情况下的人员备份问题,只能从其他一个产品团队(跟A产品有些关系,也正在交接其中的某些产品)定了一个人,但是这个人的工作也相对饱和,也只能作为备份。
总之,目前的现状就是这样,后面要做的,一个是列定时间计划,确保能在一段时间内达到备份的角色,另一方面催招聘的人抓紧时间招聘,还有一个,不管现场有没有专职的运维人员,也要确定一个人,负责简单的起停等操作,至少能解决一部分问题。
今天的事件的处理,我还有两个感受:一个是b产品的负责人,目前她正在做产品交接,前期交接时也明确了至少到3月31日前,工作的责任在她那,在不影响项目进度的情况下,她可以安排交接的人工作,她指导。但是今天故障发生后,她配合不利,让新交接的人(交接不到一个周,上周刚学会了部署 )费劲的去查问题,去配东西,这种对生产环境不敬畏的态度,这种个人利益(或者部门利益)大于项目利益,大于公司利益的行为,现场项目经理和我都提出了质疑,请她主力配合,并跟她的领导沟通了这种事情的处理原则--恢复故障,降低影响,她要全力支撑,如需协调,现场项目经理或者我可以给她的领导或者老总打电话。
另外一个是,故障的处理,一定要有时间概念,因为是远程处理,沟通极其不舒畅,而且解决问题已经有一段时间了,还没有进展,这个时候,必须要采取更有效的问题沟通方式,今天我实在忍不住了(现场项目经理在群里问情况,没人回答),我就组织所有的相关人员开了电话会,在电话会中,各方沟通,直接操作,终于在12点半左右解决了问题,截止到那会,系统停业近12个小时,都松了一口气。
会上大家还明确了后续要做的事情,梳理下现有系统,看是否还有哪方面的风险,并计划随后安排相关人员到现场进行梳理和培训(就是前面说的,至少要有一个人会起停之类的简单的操作)。
事后的亡羊补牢固然重要,但是最高级的手段是防患于未然,我们为了这个而努力。
网友评论