最近经常遇到各种意想不到的问题,总觉得自己遇到了黑天鹅。百度了一下,觉得还不算,因为黑天鹅事件需要满足三大特性:
它具有意外性;它产生重大影响;在事后为它的发生编造理由,并且或多或少认为它是可解释和可预测的。
最近的事情还没有造成重大的影响。但是回想起自己工作经历中最大的一次运营事故,那次对于项目的影响确实很大。
事故是由一个很平常的程序漏洞导致的,这个问题之前也偶尔有发生。结果就是几十名用户的奖励没有发放。对于一款几十万日活跃用户的产品,虽然紧急,但是影响不大。
问题的转折点,源自于当时几位加班的同事。大家手里都很忙,制定完补偿方案,没有研究细则,直接发放了。结果就是因为奖励内容填错,单个补偿超发了1000倍。
事后半小时发现问题,然后停服处理,开发追回奖励使用的工具,联系相关合作方,又忙了一天,才终于暂告一个段落。
这件事对于项目影响很大。用户开始质疑游戏的公平性,过了很久才消弭影响。
其实一开始,是一个小事故。但是处理过程中没有意识到可能会造成更严重的后果,所以导致了非常严重的后果。
我觉得遇到这类事情,就像挂在了悬崖上,一定要意识到事情的严重性,一步踏空,就是万丈深渊。但是在此时又要冷静,能利用好各种备案工具,爬回悬崖上,脱离险境。
网友评论