统计分布
-
我们测量许多人的身高,把测量值放进区段(bins),便得到了直方图。大多数测量值来自于5英寸到6英寸。测量值低于5英寸的很少,测量值高于6英寸的也很少。如果你随便测量一个人,他的身高很有可能在5英寸到6英寸之间。直方图让我们直观的了解到,我们将要测量的某个人是高,是矮,还是平均身高的可能性。
image-20201214105425133.png
-
现在每个区段只有原来的一半。同样的数据,大部分的测量值是在5英寸到6英寸之间,但是我们可以更精确的说大部分测量值是在5.25到5.75之间
image-20201214110948439.png -
通过测量更多的人和使用更小的区段,我们得到一个更精确的估计关于身高的分布。
image-20201214111702469.png -
我们可以使用一条曲线(curve)去近似表达直方图,曲线和直方图表达相同的意思。低于5英寸和高于6英寸的很少见,在5英寸和6英寸之间的可能性很大。
image-20201214111851674.png -
分布曲线比直方图多了几个优点。
- 第一,即使我们测量了大量的值,但还是有区段存在空缺。由于我们无法用直方图来计算概率,所以我们无法得到空缺区段的概率。但是我们可以使用分布曲线来计算概率。我们可以用积分来计算概率。
- 第二,分布曲线不受区段宽度的影响。
-
如果我们没有足够的时间和金钱来测量大量的值,我们可以用平均值和(mean)和标准差(standard deviation)近似出分布曲线。直方图和分布曲线都是分布的表达方式。他们展示了测量值分布的概率。
image-20201214114925557.png
网友评论