2012年5月,Facebook IPO首日,因纳斯达克证券市场出现信息反馈延迟及系统故障,导致开盘交易推迟30分钟、客户重复下单等问题,令投资者蒙受巨额损失。2012年8月,美国骑士资本因升级系统时漏掉一台计算机,导致交易出错而损失数亿美金。
与金融领域相似的情况,在其他领域也不鲜见。
1970年代,美国三岛核电站因例行检修管道,致使一系列的故障叠加。这些小故障如同“多米勒骨牌”效应,引起了美国历史上最严重的的一次核事故。
1998年6月,从德国慕尼黑开往汉堡的884号列车因车轮磨损故障造成严重事故,造成101人死亡。2009 年 6 月,因一小段地铁信号传感器失灵,美国华盛顿112 号列车与214 号列车发生追尾,9 人丧生。
……
这些灾难表面上看起来都是由各自领域内的技术失误而导致,相互之间似乎风马牛不相及。被评为2018年《金融时报》年度商业书籍的《崩溃:关于即将来临的失控时代的生存法则》一书,向我们讲述系统性灾难事件发生的原因以及防止其发生的措施。书中认为,我们在各类复杂系统中切换,小到筹办一次家宴,大到我们在工作中负责的各类工作。毫不起眼的细节或微小的失误都可能引发系统性灾难事件的发生。
这本书由美国作者克里斯·克利尔菲尔德(Chris Clearfield)和安德拉什·蒂尔克斯(András Tilcsik)合著。克里斯·克利尔菲尔德在哈佛大学学习物理和生物,为《卫报》、《福布斯》、《哈佛肯尼迪学院书评》写了许多有关复杂性和失败的文章。安德拉什·蒂尔克斯在多伦多大学罗特曼管理学院主持战略、组织和社会研究讲座,被认为是世界前40的40岁以下商业教授。他在组织失败方面的课程被联合国评价为商业学院中有关灾难风险管理的最佳课程。
《崩溃:关于即将来临的失控时代的生存法则》一书,通过事故报告、学术研究资料和人物访谈,为我们揭示高复杂性、高耦合度的系统属于高度危险系统,将导致必然性崩溃事件的发生,并提出预防系统性崩溃的措施。
01 强大的系统,安全的隐患
工业革命后,蒸汽机、各类电气设备代替了手工,形成了最初的系统。信息革命后,系统中增加了大量的计算机软硬件系统,增加了系统的复杂度。
智能时代,系统的复杂度持续增加。此外,各类安全措施不断被增加到系统中,使得各行各业所处的系统越来越强大。
而强大的系统却因其不透明性而暗藏安全隐患。
21世纪头10年,英国邮局引入的高档IT新系统,因系统bug导致账务不清而牵连许多邮局代理人含冤深陷囹圄。
而当新科技被应用到大坝的运行时,大坝管理人员坐在控制室内通过计算机屏幕上的虚拟按钮移动闸门,而对闸门实际的位置、移动了多少并不清楚。正因为如此,位于美国加州的一座大坝,闸门脱落造成事故时管理员并不知情。
表面上生产和生活赖以生存的强大的系统,实则已进入了“危险区”。根据著名灾难学大师查尔斯·培洛的研究结论,高复杂度、紧密耦合的系统最脆弱。
02 简化系统以降低复杂性
2012年,美国加州大学旧金山分校引进一套新的计算机系统,可以消除人为错误,提升用药安全。然而,一位医生在给患者开160毫克药丸时,系统按照每公斤160毫克计算,共出了38.5颗药丸。虽然护士凭个人经验觉得有问题,但她在确认了配药系统中的包装条码和病人之后,选择监督患者吃下了全部 38.5 颗药丸。“在紧密偶尔的复杂体系中,安全系统是造成灾难性失败的最大根源,没有之一”。安全系统并不安全。
设计透明的系统,降低复杂性。不用冗余的示警系统,扫除一切多余的安全措施。此外,尝试让事情的耦合变得更松散。
03 使用结构化决策工具,辅助做出更优决策
当系统无法简化时,使用结构化决策工具,辅助我们做出更优决策。
SPIES主观概率区间估计
2011年3月,日本地震引发海啸,海浪淹没福岛核电站,造成25年来世界最严重的核泄漏事故。而距离震中更近的女川核电站却毫发无损。研究人员发现造成差别的最关键因素是女川核电站的防波堤高度为14米,而福岛核电站的10米防波堤无法抵御13米的海浪。
将一座核电站的防波堤高度设计到几米合适?类似问题在我们的工作中也很常见。
SPIES主观概率区间估计,这一概率论方法可以帮助我们做出相对稳妥的决策。首先找出能够覆盖一切可能结果的区间,然后分别写出每个区间的预估可能性。最后根据预估的可能性得出置信区间。
例如:将一个项目的周期设置为几个月合适?我们列出如下区间可能性列表。项目周期设为2~6个月的置信度为90%,为2~4个月的置信度为70%。
SPIES帮助我们考虑整个区间的可能性,让我们尽可能考虑一些似乎不大可能的情况。
维基序列测量
在复杂系统中做出决策,我们很难理解决策会造成什么影响,也无法得到反馈。而我们又常被直觉误导而发生失误。那么,如何在复杂系统中做出更优的决策呢?维基序列测量这一工具可以简单的帮助我们做出高质量的决策。
例如:我们需要选择一位高风险重大项目的负责人。
首先,我们针对该项目,确定保证项目成功,负责人应具备哪些能力。
然后,基于能力序列,筛选出几位候选人。
接下来,考察每一项能力,为候选人打分。
最后,取综合得分最高的候选人为项目负责人。
这个过程很简单,但是可以帮助我们避免被复杂表象和直觉误导,做出相对准确的决策。
事前检验
通常情况下,如果一个项目失败了,就会有一个事后总结会议,分析是哪里出了问题,为什么项目会失败。而如果把这个分析会议放在项目开始之前进行,就是另一种辅助人们做出更优决策的方法——事前检验。
事前检验的基础是心理学家称之为未来的后见之明的概念,即通过想象一个事件已经发生而产生的后见之明。
04 重视警示信号
开篇提到的德国884号列车,在失事前两个月,工作人员曾反映异常8次——承载破损车轮的转向架有不寻常的噪音和震动——但德铁并未更换车轮。
当我们面对一个复杂系统时,我们通常假定一切正常,不去理会那些与这一假定有冲突的证据。可以防止灾难发生的警示信号便因此被我们忽略。
1974年12月,从美国俄亥俄州哥伦布飞往华盛顿的514号航班,因天气恶劣改降杜勒斯机场。当飞机距离杜勒斯机场50英里时,一位空中交通管制员指示,在第12跑道上用仪器进场着陆方式着陆。机组人员可以看到的着陆路线侧视图只显示距离杜勒斯机场6英里的高度限制为1800英尺,然后下降着陆。侧视图漏掉了关键的信息:在距离机场更远的地方应保持怎样的高度?此时机组人员出现困惑,但是以“当他放你进场时,意味着你可以降到初识进场高度”为理由开始下降,之后撞上朗德山,92位生命就此结束。
当解决问题的信息不足时,我们会感到不和谐,大脑将迅速工作填补缺口,用和谐代替不和谐。
复杂系统的一个基本特点是,我们无法通过单纯地思考它们的情况找到所有的问题。那么如何从未遂事故中学习经验教训,显得尤其重要。
1. 搜集未遂事故报告或检查错误事件来搜集数据
2. 改正这些问题
3. 继续深入发掘,理解并应对根本原因
4. 确认我们对警示信号的应对确实有效
对小失误、反常现象和侥幸脱险事件的重视,在很多时候可以拯救生命,避免灾难发生。
05 用信念去尝试改变
2011 年 7 月 ,因雷击导致铁路信号失灵,中国温州铁路线上,D301 和 D3115 号动车发生撞击。六节车厢脱轨,40 人死亡。
许多灾难事件仍在发生,且似曾相识。
书中提供的解决方法除以上提到的之外,还建议我们善待异见者,鼓励表达不同意见;构建多元化团队,降低错误扩散的速度;听听局外人的意见;及时停止确认等。
这些方法并不是多么难以实行。我们只需要用信念去尝试。
网友评论