今天是没有进步的一天,地基不牢,大楼摇摇欲坠,一出现问题,需要花很长的时间来排查问题和修补。
可以思考一下,怎样才能更快更准确的去定位问题。
可也仅仅是定位,不是解决问题。
先说仅仅是效率的提升是否有意义?
每个人对系统理解深度不同,每次定位问题都需要多人参与,经常需要等人,时间极大浪费。以我自己参与的tracking issue为例,每个问题至少3-4人参与,包括运维开发测试等,定位问题时间1h到几天不等。如果提高问题定位精准度,每个issue至少可以节约0.3pd。
如何去提升定位效率?
这是个大话题,目前大部分公司还是依靠日志和debug,人工分析,人工分析肯定不可避免。做自动定位也不是一蹴而就的,随着系统的完善和对系统的了解更加深入,定位肯定会越来越准确。
粗略的想法:
1.分析调用链,找到断链的节点
2.向上追溯问题的原因
3.将可疑的节点汇总,人工分析
在不断的迭代中,更加准确的定位可疑节点,从而减少分析的工作量。
这里现在就能想到一个问题,效率问题,分析不仅需要精确,也需要快速,不然大家就等不及了。还有个问题,如果迭代了,该如何维护,比如调用链变了。
粗略的想法,也不是适合所有场景。根据具体业务,还需要做深入分析。
但看起来自动分析定位,应该还是值得很尝试的。
网友评论