蒙特卡洛模拟(Monte Carlo Simulation)浅析

作者: 朱焕 | 来源:发表于2018-04-25 23:13 被阅读14次

蒙特卡洛模拟作为一种常用的模拟技术，在PMBOK里经常可以看到它的身影，其主要出现在风险管理知识领域中的定量风险分析过程，是用于做项目定量风险分析的工具之一，同时蒙特卡洛模拟也可以用于估算进度或成本以及制定进度计划等。（全文共 2741 字，阅读大约需要 10 分钟。）

蒙特卡洛模拟由于在PMBOK里讲得较为简单和抽象，理解起来稍微有点困难。为了让大家更加通透地理解蒙特卡洛模拟的作用及其过程原理，本文试图通过一个简单的例子来实操模拟一下这个蒙特卡洛模拟的过程。

一、简要介绍

到底什么是蒙特卡洛模拟呢？蒙特卡洛模拟是一种统计学的方法，用来模拟大量数据。可能童鞋们看到这个定义更晕了，到底什么是统计学方法，模拟大量数据干什么？别着急下面会慢慢一一道来。

我们先来简单介绍一下关于蒙特卡洛模拟的一些背景知识。蒙特卡洛模拟是在二战期间，当时在原子弹研制的项目中，为了模拟裂变物质的中子随机扩散现象，由美国数学家冯·诺伊曼（学计算机的同学都知道这位冯同志的大名，人称“计算机之父”）和乌拉姆等发明的一种统计方法。之所以起名叫蒙特卡洛模拟，是因为蒙特卡洛在是欧洲袖珍国家摩纳哥一个城市，这个城市在当时是非常著名的一个赌城。因为赌博的本质是算概率，而蒙特卡洛模拟正是以概率为基础的一种方法，所以用赌城的名字为这种方法命名。

蒙特卡洛模拟是在计算机上模拟项目实施了成千上万次，每次输入都随机选择输入值。由于每个输入很多时候本身就是一个估计区间，因此计算机模型会随机选取每个输入的该区间内的任意值，通过大量成千上万甚至百万次的模拟次数，最终得出一个累计概率分布图，这个就是蒙特卡洛模拟。

二、模拟过程

蒙特卡洛模拟在实际的项目管理应用中一般较为复杂，而且很多时候用在专业的项目风险分析软件里面（比如Pertmaster），通常用在较为大型的项目和企业中。我们这篇文章只是为了让童鞋们对于蒙特卡洛模拟有个更为直观清晰的认识，同时鉴于篇幅和不至于让讲解过于晦涩，所以这儿我们只是准备用Excel工具来简单地模拟和介绍一下蒙特卡洛模拟的实施操作过程，这样大家也能对蒙特卡洛模拟有个更为直观地了解。

我们以定量分析项目总持续时间为例来简要介绍一下蒙特卡洛模拟。比如说我们现在有个项目，该项目共有三个WBS要素分别是设计、建造和测试，为了简单起见我们假设这三个WBS要素的预估的工期概率分布都呈标准正态分布，各自的平均工期、标准差以及最悲观、最可能和最乐观的估计工期如下图所示（我们这儿简单地认为基于正态分布的工期的最悲观/最乐观的估算工期定在均值正负3个标准差的位置），而且三者之间都是完成到开始的逻辑关系，这样整个项目工期就是这三个WBS要素工期之和。

现在我们需要用蒙特卡洛模拟来以这三个要素的工期的分布为输入，来模拟得到整个项目的工期概率分布图。由于设计、建造和测试这三个要素都是呈标准正态分布，我们可以根据上面表格中的各自的均值和标准差数据大致画出这三个要素工期的概率分布图如下面的样子：

我们要用蒙特卡洛模拟来定量分析整个项目的工期进度风险。于是我们用计算机来模拟项目的实施，我们的思路是：第一步：随机选取每个WBS要素的工期值作为输入（因为每个要素的工期不是恒定的，本身就是一个估计的分布区间）；第二步：然后把三个WBS要素的值相加得到整个项目的工期值，这样就完成了一次模拟；第三步：重复第一二步，然后就这样一次一次的模拟，需要模拟成千上万次最终得到成千上万个整个项目总工期的数值；第四步：再对这些海量模拟次数得到海量总工期数值进行统计分析，得出其最终的项目总工期估计的概率分布。

我们先做第一步。第一步需要我们先产生这些每个要素的随机工期值。Excel里面有个函数可以生成呈正态分布的随机数，就是NORMINV。我们的设计要素的第一个随机工期取值的公式就是这么写的：=ROUND(NORMINV(RAND(),$E$3,$F$3),0)，如下图所示：

解释一下这个公式：ROUND(NORMINV(RAND(),$E$3,$F$3),0)，RAND() 是生成0到1之间的随机数，NORMINV(RAND(),$E$3,$F$3) 是生成呈均值为E3（图中为14）、标准差为F3（图中为2）的正态分布的随机数，ROUND 是四舍五入的意思，这样回车我们就生成了设计这个要素的第一个随机工期值17。同理我们把这个公式值往下拉，复制400次（我们此例中模拟400次），就得到了400个呈正态分布的随机工期值；然后建造和测试的随机工期值也是照葫芦画瓢，这样我们就得到了这3个要素的400次模拟的随机值，再每次的3个要素的随机值相加得到总工期的模拟值，如下图所示：

此时前三步就做完了得到了总工期的一组数据（400个）。现在开始做第四步对这组数据做统计分析和作图。

4.1 先把总工期这一列（图中E列）400个值拷贝一份，粘贴数值到另外一列（注意粘贴的时候选择“选择性粘贴”然后选“值”，因为随机数随时变动，这儿需要把值固定下来），用MAX和MIN函数计算出这一列400个值的最大值为76，和最小值为45，作为分组依据，然后在旁边 I 列依次升序排列42-78（前后多取几个数值图像更完整）这部分数值作为分组数据，如下图所示：

4.2 然后计算每个分组数据在总工期这组数据中出现的概率，这儿需要用到函数FREQUENCY，计算概率的公式为：=FREQUENCY(H8:H407,I8:I40)/400，意思是统计每个分组数据在总工期这一组数据中出现的次数，再除以模拟总次数400就得到这个分组数据出现的概率。再计算一个累积概率值，累积概率值就是前面的所有单个概率值加起来的概率，比如算分组数据46的累积概率值就是把46以下的数值的概率值全部加起来，这样我们就得到关于分组数据在总工期这组数据中出现的概率和累积概率的数据，如下表格所示：

4.3 通过对上面表格的数据，以分组数据为X轴，出现概率和累积概率的值为Y轴于是可以做出下面关于总工期的概率分布图：

红色柱状图是整个项目估计刚好多少天完工的概率数据，比如图中60天对应的概率大约是11%，表示整个项目刚好60天完工的概率是11%；蓝线就是我们PMBOK上定量风险分析得到的那张S曲线图，也是我们最终蒙特卡洛模拟需要得到的最终的模拟输出：总工期的概率分布图。通过这个S曲线，我们可以预测整个项目在多少天内完工的概率。比如我们需要预测整个项目在56天完工的概率，通过S曲线了解到56天对应的累积概率是34%左右，也就是整个项目56天内完工的概率是34%，那么56天内不能完工的概率就是1-34%=66%，这就是风险。如果觉得风险太高无法接受，那么我们可以把工期适当规划长一些，比如60天，这样查询S曲线可以得到60天内整个项目完工的概率是70%，这样就只有剩下30%的不能按时完工的风险，项目在进度方面的风险就大大降低了。

好了，至此关于蒙特卡洛模拟的基本概念和操作流程就说完了，希望能通过本文对大家学习和理解蒙特卡洛模拟有所助益，如有任何疑问、建议或指正，欢迎留言交流，谢谢阅读。

推荐阅读作者更多的文章（直接点击下面的标题）：

详解挣值管理（EVM）

详解净现值（NPV）与内部报酬率（IRR）

什么是边际效益递减规律？

“活动”失踪了吗？ | 《PMBOK®指南》第6版解读

如何用通俗的案例解释「借壳上市」？