故障的反思

作者: jwentest | 来源:发表于2016-09-24 02:35 被阅读50次

生产故障,P1级别,从程序的角度看来不难
我们底层的SDK包中的入参某个字段是枚举值,例如[0,1,2],调用方在调用该接口的时候由于他们传参错误,传递了一个3进来,程序处理如果不在枚举值中那么取default值:0
站在我们程序的角度,我们覆盖了0,1,2,非枚举值这四种情况,确保了程序的正确运行,但调用方本来期望是传递2过来,但由于他们程序出错了传递了一个3进来,导致我们当作0处理了,从而产生了故障。

出现故障,首先是解决问题,而不是定责。

通过关闭接入开关,暂时解决问题,后续调用方会上代码修复,我们底层做监控。
而最困惑的是定责:各打五十大板,两个部门各自背负50%的责任。
问题是出现在调用方,但底层作为项目方,没有把控好联调质量。

造成这个原因就是:调用方接入的时候没有通知底层,底层不知道这件事,就没有安排联调。

后续解决方法,提供思路:

  • 做好线上日志监控,针对关键字段匹配告警规则,第一时间发现问题,减少造成的损失;
  • 提供基线用例给调用方,但调用方来接入的时候必须跑完我们提供的基线用例;
  • 大联调时关注关键字段,确保每个环节无误(这个很难做到,涉及多系统联调/跨部门合作)

这个故障的意思不在于技术层面,而是流程上,跨部门合作上;底层怪调用方不通知,调用方怪底层没做好异常处理,这种破事很多;制定规则,邮件记录;

相关文章

  • 故障的反思

    生产故障,P1级别,从程序的角度看来不难我们底层的SDK包中的入参某个字段是枚举值,例如[0,1,2],调用方在调...

  • 故障问题带来的反思

    问题描述 由于电源跳闸,导致4台物理服务器宕机,共影响25台虚拟机。其中一台虚拟机为我司的redis服务器,且该缓...

  • 171023 5 whys

    引用自 http://coolshell.cn/articles/17680.html 一般说来,故障都需要反思,...

  • IT团队故障反思(1)-敬畏504

    1、现状描述 1)用户信息登记页,证件类型无法从后端获取到 2)业务逻辑涉及的内容缺失 3)大量用户反馈无法正常操...

  • 《电路出故障了》课后反思

    本课的科学概念是1.利用电来点亮小灯泡需要一个完整的电路;2.电路出故障了,电流就会中断。探究目标是1.能够制作一...

  • 电路故障分析课教学反思

    电路故障分析一直是初中电学的一个难点问题。本节课,我利用信息技术,把虚拟仿真实验引入课堂,融合传统实验操作,让学生...

  • 不同类型的电缆故障该如何解决?

    不同类型的电缆故障 电缆故障分为两类,即开路故障和短路故障。 开路故障 开路故障优于其他类型的故障,因为当发生这种...

  • 线上故障处理书目录

    线上故障处理之故障信息获取源 线上故障处理之处理流程 线上故障处理之故障后处理

  • 爱心存款53天

    0907(D53)亲爱的金禄:感恩无非,让你此时和自己对话,享受片刻安宁,反思今日所做所为。 1今日车在乡下出故障...

  • 主管手记(8)

    产品故障分析要点 1、确认故障现象 2、利用故障树穷举可能导致故障的原因 3、基于故障树确认排故方案 4、依据排故...

网友评论

    本文标题:故障的反思

    本文链接:https://www.haomeiwen.com/subject/bfkxyttx.html