3-2

作者: larimar | 来源:发表于2014-12-25 21:50 被阅读0次

    大家好 本节课我们将讨论
    比较简单易懂的聚合模型
    接下来 我想建立这样一种模型
    在此模型中 我们假设有一组人
    可以是100个人或是1000个人
    每个人都是互相独立地
    去决定要做的事情
    也许是要去健身房
    也许是要去海滩
    又或是去杂货店
    我想让大家尝试去理解的是
    我们有这样的一群人
    每个人都是独立的在做决定
    那么最终做出不同决定的人数会怎么分布呢?
    现在 为了找出这些人的分布特征 我将采用一种
    叫做概率分布的思想
    简单地说 让我们假设
    有一小组人 就像我的家庭一样
    我家有4个成员
    同时 我想知道
    这四个人中有多少人会在一个指定的周六出去散步
    我想这个数字可能是
    0 也可能是1
    或者是2 也有可能是3 又或是
    4个人都决定会去散步
    我想我家的狗肯定希望我们家四个人都去
    但是 要知道不管是几个人去 我们都会得到一个数字
    于是我就可以记录数据了
    我可以画上一张数据表 例如在我的墙上的某处
    我们可以的 然后 我们会问
    “没人去散步的可能性是多大?“
    可能是10%
    那么只有1个人会去的可能性是多大呢?
    可能会是15%
    那么2个人去的几率呢? 可能是40%
    3个人去的几率也许会是15%
    那么 4个人都去的几率是多大?
    让我们假设是20%
    现在我们可以知道 在概率分布中
    每种可能性都小于1
    如果我们把这些概率相加 即25+40=65
    再加15就是80 再加20就是100了
    于是我们得到最后总和100%
    因此 概率分布告诉我们
    有多少种不同的情况会出现
    (像这个例子中,我们有0、1、2、3、4这五种情况)
    并让我们知道每种情况出现的概率
    以下 我们将要使用一个重要的结论
    去帮助我们理解这些是怎样相加到一起的
    有一种定理叫做中心极限定理
    根据中心极限定理
    如果我将所有的个人、独立事件相加到一起
    但是这里的”独立“是什么意思呢?
    ”独立“意味着要是我决定去海滩
    这个决定一定是出自自主意愿的
    与你的表妹玛丽
    想去海滩的决定毫无关系
    即”独立“意味着不受其他因素影响
    我不管你是要去海滩还是不去
    我自己做自己的决定
    与你的决定毫无瓜葛
    与你的表妹玛丽的决定更是任何关系
    根据中心极限定理
    如果有一群人每个人都
    做了独立的决定 那么人数分布上我们可以得到
    一条类似于铃铛的曲线 即钟形曲线
    在钟形曲线中
    概率最大的在曲线的正中间
    所以 事物可以有很多种可能
    这也说明我们能预知许多事
    了解世界上正在发生什么
    这正是我们这节课将要学习的东西
    这节课将会是很有趣的一节课
    为了理解这些分布来自哪里
    我们从一个简单的例子开始讲起
    假设我将一个硬币掷了2次
    然后我想知道得到人头朝上的机会是多少?
    也就是求人头图像朝上的概率分布
    那么 我将得到什么呢?
    可能两次都是正面 那么人头朝上为0
    我也有可能得到 背面-人头 或者 人头-背面
    在这两种情况下 都会有一次人头向上
    或者我也有可能得到人头-人头
    这样就会有两次人头向上
    那么 每一次的概率是多少呢?
    得到背面-背面的概率是四分之一
    得到一次人头向上的概率是二分之一
    得到2次人头向上的概率是四分之一
    因此 我将会得到一个概率分布
    如果我把这些结果标记为0 1 2
    那么相应的几率就会有1/4 1/2
    和1/4
    你可以注意到 这种分布就像是一个小的钟形曲线
    接下来假设我将一个硬币掷了4次
    那么结果会更艰难
    我想知道没有人头朝上的机会是多少?
    我可能得到背面-背面-背面-背面
    那我怎么计算这种结果的概率呢?
    用1/2乘以1/2乘以1/2乘以1/2 4个1/2
    也就是分母的2×2×2×2 因此为1/16
    得到一次人头朝上的机会是多少呢?
    可能第一次是人头 然后有3个背面
    我可以第二次得到这样的结果
    第三次
    直到最后一次
    所以这就是它可能出现的四个位置
    也就是说有4/16的机会
    我可以再做这些有关数学的事情
    去求两次人头朝上的概率
    事实上我会得到6/16
    3次人头朝上的概率的话 与得到1次人头朝上的概率一样
    因为正反面是可交换的
    所以我会再次得到这个结果
    如果我把分布画出来 我会在2次头朝上地方得到一个峰值的概率
    我将得到一个漂亮的钟形曲线
    因此 我将得到这个结果
    表明很少的可能得到没有人头朝上
    也不是很多可能是4个人头朝上
    而更多的可能是2个人头朝上
    我可以计算这些全部 非常有意思
    但是问题来了
    记得我之前在课上说过 我们现在有大数据了
    我们有很庞大的数据
    也在尝试理解这些数据
    我们经常遇到大于2或是4的情况 我们有“n"
    那是个很大的数
    如果我们说纽约有1千万人(10百万),
    若谈到我居住的安娜堡 (Ann Harbour) 也有十万人
    所以我不会想就坐在那里写着“背面,背面,背面……” 写十万次
    我想用一个模型来帮助我解释它
    所以如果你有n件事情 你要知道它们的平均数 那个期望值应该是
    N除以2 应该是n的一半
    但我们更想做的是去了解那个分布看起来是怎样的
    从统计中我们知道这个分布实际上是一条漂亮的钟形曲线
    平均值在中央 是N/2
    分布将有漂亮的走向 两边对称
    有个有趣的公式 它告诉你这条线是怎样的
    我们不会深入了解这个公式 但如果你上过统计课
    我也鼓励你去上 它非常有趣 你将学到
    这个公式到底是什么?它是怎么应用的?
    这里我们只是用它作为模型去了解事物是怎样聚合
    所以我们将跳过些统计学的内容
    这里我们需要小心一些
    掷硬币总是相等的可能性 头朝上或是背面朝上 是50对50的概率
    但如果我考虑人们去海滩
    或是去超市 或是出现在他们的航班上
    那就不是50对50的命题
    可能90%的人会在他们的航班上出现
    也许只有10%或15%的人去海滩
    所以我想把那个1/2换成些其他东西
    现在我可以引入一个叫做二项分布的东西
    那就不是给你1/2 而是做某些事的概率p
    我们假设去海滩是15%的概率
    如果我有1000人 那么 p = 15% 所以p乘以N是150
    所以我期望有150个能来
    这是合理的 现在我问 分布怎么样呢?
    平均是150 但我可以有200 可以有74
    这个中心极限定理告诉我们的是
    我们会得到一个钟形曲线 这个形状漂亮的曲线
    这里是平均值 就是p乘以N
    如果N是足够大的 我们有这个
    如果我得到一个非常大的N 你可以得到这个很好的钟形曲线 平均值正好是p乘以N
    还有更多的 这里事情变得更复杂些也更有趣些
    这里是叫做标准偏差的 这是叫做西格玛的东西
    叫做标准偏差 当我画这个正态曲线
    这里会有一个平均值 那就是在中间的这个点
    有一个标准差 告诉我们曲线
    能延伸地多么远
    我的意思是不同的结果能够延伸地多么远
    结果是这个任何正态分布都有的这个不错的结构 如果你告诉我平均值
    然后告诉我标准差
    就会有68%的
    结果会在-1和1的标准差之间
    如果我得到一个大的标准差
    那就意味着宽度会很宽
    如果是个小的标准差 就意味着宽度会很窄
    如果你告诉我平均值 然后告诉我标准差
    永远都会有68%的几率我会在-1到1的标准偏差之内
    既然对1是这样 也有2 3 4
    所以 有95%的几率我在2的标准偏差内
    好 为什么我们关心这个?
    我们有这个模型告诉我们 如果我把这些独立的事件加起来
    这里是平均值
    我将告诉你标准偏差的公式
    那会告诉你西格玛是什么
    如果你知道平均值 你知道西格玛
    然后我可以给你宽度 然后告诉你 95%的情况下
    我会在-2和+2西格玛之间
    所以如果我说出现的人数的平均值是100
    那是平均值 标准偏差是2
    你就知道95%的情况下 会在96和104之间
    所以你知道 要为100个人准备
    如果我告诉你标准偏差是15 那你知道
    这会是70到130之间
    这是我们想试着用这个模型来解释的
    在某种特定情况下 我们能看到多宽范围的结果
    让我们回到我们的简单的二项分布 几率为1/2
    平均值 是N除以2
    标准差是N的平方根除以2
    你可以稍微算一下就得到
    让我们假设N = 100
    如果N = 100 那平均值是50 如果我投掷硬币100次
    平均值是50 不奇怪
    但是标准偏差是N开方除以2
    那就是100开方 就是10
    这里10除以2 就是5
    所以这个告诉我的是如果我用二项分布来思考
    如果我把这个画出来
    我得到50的平均值 然后我得到一个标准偏差为5
    那意味着68%的结果在55和45之间
    如果你想的话 你可以在家里做这个 会花些时间 投硬币一百次
    数数你得到多少次正面 再来一次 数数得到多少次正面
    做好几次 你会发现68%的几率 你会得到45到55之间的正面
    所以这个模型告诉我们的是一个大概的概念 知道我们的结果会多奇怪
    所以 大多数时候 68%的时候 我们会得到45到55
    所以我们的平均值是50 1倍标准差是55和45 那就意味着2倍的标准差是60和40
    这个告诉我们95%的时候 你会得到40到60的正面
    99%的时候 你会得到35到65
    所以基本上 你几乎永远不会得到35个以下正面 和65以上的正面
    所以这就是中心极限定理的力量
    它不仅给我们平均值 还告诉我们分布是怎样的
    这只是一个简单的例子 这是P = 1/2 的例子
    我们想要的是更通用的例子 其中什么事件会发生的概率可以是任意的
    这里是p乘以N
    标准差是p乘以1-p乘以N 再开方
    所以 p = 1/2的例子,我们有1/2乘以1/2乘以N,再取平方根
    但是注意到我得到1/2的平方这里 所以我们可以把那个拿出来 得到1/2乘以N的平方根
    所以我们得到N的平方根除以2
    现在 对于二项分布 我们得到这个干净的公式
    我们可以用这个来建模来理解比投掷硬币更有趣的事情
    让我们给一个真实的例子 让我们来点有趣的
    我们中的大多数人可能有过被赶下飞机的经历
    你来到机场 结果有太多的人来了
    你想为什么这样呢 原因是航空公司有时会多卖票
    他们多卖票的原因是不是每个人都会来
    所以如果你在运营一个航空公司 你有400个座位 你知道人们有90%的几率会到
    你希望卖400个以上的座位 这样你的飞机就能满座
    让我们给一个例子 为了简单化 我们假设 我们的飞机有380个座位
    我们假设我们有一个波音747有380个座位
    假设90%的几率 人们会来
    我们运营一个航班 我们收集了很多的数据
    我们知道90%的几率 人们会来 并且是相互独立没有关联的
    所以一个人决定来和其他人没有关系
    现在 这不一定是真的 因为如果有下雪 我迟了 你也很可能迟到
    但还是让我们假设这些事情是彼此独立的 假设我们卖400张票
    我们现在来尝试理解那个平均值是什么
    如果我们卖400张票 会有多于380人出现的几率是多少
    这里是模型能够帮助我们的地方 它能告诉我们平均值是多少 也会告诉我们标准差是多少
    所以平均值是 如果我卖400张票 平均有90%的人来 那就是说平均会有360个人到
    那比380要少 那没问题 我关心的是多于380人会出现的情况
    因为如果我付了钱去佛罗里达 我不想坐不上飞机
    如果有多于380的人出现 他们会非常生气
    所以360并不能告诉我们足够的信息 我们想要知道分布
    我们有一个公式
    N是400 p是0.9 所以p乘以N是360 那是我们的平均值
    现在 我们很容易得到标准差
    也就是0.9乘以1-p 就是0.1 乘以N N是400
    让我们乘起来 那是0.9乘以0.1乘以400
    0.1乘以400是40 乘以0.9则是36 那给我们36的平方根 也就是6
    所以6是我们的标准差 现在我们得到一个钟形曲线 平均值是360 和标准偏差是6
    这很有用 这能帮助我们 因为
    这个平均值是360 我们的标准差是6 所以那意味着68%的时候 我们会得到354和366之间 不错
    意味着95%的时候 我们会得到348和372之间 也不错
    意味着99.75%的时候 我们会得到378和342之间
    我们有380个座位 这就意味着99.75%的几率 其实多于那个
    多于99.75%的时候 我们不会多卖票
    好 这个是中心极限定理 让我正式的来说
    中心极限定理是这样的 我们有一串的随机变量
    那可以是决定是否来赶飞机 大多数情况下随机变量是1或者0
    或者可以是 你的包的重量 每个人的包的重量是相互独立的变量
    只要那些事情是彼此独立的 那就意味着 每个人的决定和其他人没有关联 我在我的包里塞多少东西和你在你的包里塞多少东西没有关联
    那些数字变化有限 -- 那个的意思是 -- 那意思是他们是有区间的
    我们知道我们不会有非常大的数值 就象我的包不会有数亿磅重
    只要你知道 每个人能带的东西的重量是有限的
    不会有很大的几率会出现非常大的值 当你把这些数加起来时
    你会得到一个正态的分布 也就是一个钟形曲线 意味着我们可以预测事情
    我们可以用那个模型来理解世界是如何工作的
    现在 让我们退一步想一下 为什么这个很酷
    假设它不是真的 我们来做点儿思考实验
    假设当我把这些独立的事件加起来时
    大多数时间 我会得到一些好的结果 有时候会得到一些很大的事
    这个好像有时候
    你去杂货店 有1000个人在那里
    或者有时候你想我去厕所 而有300个人在排队
    世界的可预测性 很多象这种日常的来来去去的预测
    源于那种很异常的事情不太发生 我们能得到这个很好钟形曲线
    因为个体的人或者工厂或小组
    独立的做决定 和他人无关
    那你将得到的是
    很好的规则的东西 根据钟形曲线
    是的 当然会有交通堵塞 会有很多人在商场,
    会有某天你会有很多事情 也有某天 什么也没发生
    但大多数时候 你在这个小区间里 也就是可以预测的和理解的
    所有的东西都是正态分布的吗?不是的
    比如股票收益 如果你看股票收益 你可以看到
    有很多天什么事情也没有发生 也有很多天会有很多的收益
    很多天 会有很多的损失
    这里发生的事情是这里的事情是不再独立的
    举例来说 价格往上走 很多人可能会买 价格就会继续上涨
    如果价格下落 很多人会卖 价格就降的更快
    所以当事情不再是彼此独立的 不满足独立的假设时
    我们得到的是比我们预料的更大的事件和更小的事件
    所以我们得到的是什么?
    如果我们用中心极限定理为模型 我们用这个模型来解释
    如果我们把这些独立的事件加起来 我们得到的是
    很好的正态分布
    我们可以理解平均值 可以理解标准差
    我们可以用这个来预测事情发生的可能性
    所以我们学到了 有独立性才有正态性
    没有独立性 我们会得到很大的事件 很小的事件
    会有各种奇怪的事情发生
    所以我们下一个要做的 我会简单的讲讲一个叫做
    六个西格玛的东西 似乎把这种预测事件概率的思路
    更加推进 那以后 我们会开始
    告别实验
    进入到行为彼此依赖的体系
    因为有彼此依赖的行为 我们不再能得到这样好的钟形曲线
    我们会得到各种奇怪的有趣的东西
    会很有趣的 谢谢你们

    相关文章

      网友评论

          本文标题:3-2

          本文链接:https://www.haomeiwen.com/subject/dematttx.html