经过一系列枯燥概念的输入(简单概率的计算忽略),终于走到了综合应用阶段。看看这个不起眼的曲线图包含着一种解释工作、生活中很大一部分的现象。
再次重复下图中所示数据意义:X轴:事件;Y轴单个事件的频次(比例);曲线下面积是范围内事件发生的概率;μ是平均值;σ标准差(数据与平均值差值的平均值)。
如果有批量数据,那么我们可以将数据计算得到以上常数确定的值,形成一个个体属性及群个体分布的概率发生曲线图。减少定语用人话说“个人属性在人群中的不同位置或一种属性可能性的概率”。
举几个例子:
例子一、个人身高作为变项,有很多种可能。吉尼斯纪录中记载成年男子身高,最矮55厘米,最高240厘米。160厘米为平均值μ,σ标准差是15厘米。那么我身高178厘米,2σ>178-160=18厘米>1σ所处概率范围13.6%范围内。姚明身高224厘米,224-160=64厘米>3σ所处概率范围0.1%范围外。同样如果一个小孩子出生预测他的身高,首先要以社会平均身高估计68.2%出现在2σ>X>1σ即160+-15cm范围内,其次才是通常认为的父母身高的基因遗传效果。
例子二、考试刚刚结束,父母看到孩子的成绩98分,虽然嘴上说:“看看多粗心,做对不就100分了吗。”其实心里满意的很。那么我们看看这个98分的属性到底怎么样?设想μ平均值=99分,标准差0.5分,其实孩子成绩在平均线以下,而且98-99=-1=2σ,已经处于整个班级(统计样本)低于97.8%的同学,成绩很差。再说说另一个极端考了72分,设想μ平均值=50分,标准差10分,而且72-50=22>2,成绩高于其他同学97.8%,这次题难,但孩子发挥的还是不错的。别因为72分苛责孩子,他学习很努力。
例子三、世事难料、福祸无常。千年一遇的洪水来临,让人们惴惴不安,家里储存食物、药品、甚至买个冲锋舟。0.1%的发生概率相当于X>3σ的区域。回过头看看目前交通事故死亡率,走路请不要乱穿马路、坐车系好安全带。家里放倒放酒瓶操的心,来学学概率统计吧。
强调下统计学的意义在于此,认识自己现在所处位置、将来可能发生区域。如果买彩票去赌1/500分之一的头奖,不如赌赌4%的大学毕业生创业成功率。计算好平均值、标准差多关心绝对值在2σ与3σ之间的事件它的概率占到了4.2%有本书叫畅销书《灰犀牛》;了解一下《黑天鹅》但别让它把自己压趴下,它的范围在X>3σ的绝对值,概率只占0.2%。数量级高一个等级,可以简单指导我们那个更重要。
以上我们通过个体(单一)到特殊(类别),又从特殊(类别)到一般(总体)做出了正态分布图,简单认识了正态分布。隔壁老王出门捡了钱包,我就要天天守株待兔吗。摒弃这种个体直接推断整体简单而又盲目的草率方式,把事件放置到大样本中考虑。
网友评论