美文网首页统计
写给所有人的极简统计学

写给所有人的极简统计学

作者: 水鸟归巢 | 来源:发表于2020-05-29 15:32 被阅读0次
    写给所有人的极简统计学

    偶然发现的一本好书。如果我的大学课本写得像它这样通俗易懂就好了。

    统计学作为数学里的一个分支,它的地位一直以来都饱受质疑。统计的模糊性与数学的精确性确实有相悖的地方。

    1

    基础知识回顾

    这是我觉得这本书最有意思的地方,它回顾了很多来自小学、初高中的知识,有些东西我自认为理解透彻了,猛然一读才发现自己的知识结构里还出现了很多漏洞。

    有很多有意思的地方值得细细品味。

    除法

    我记得这是小学二年级的内容。

    除法有两种意义,一种叫”等分除“,一种叫”包含除“。以分苹果来说明二者的差别。20个苹果分给4个人,每人可分5个苹果。这叫等分除。20个苹果,以5个为一份打包,分成4份。这叫包含除。

    差别在于,第一个是\frac{20个}{4人} =5个/人;第二个是\frac{20个}{5个}=4。”等分除“里是求每单位里有多少;”包含除“里则是求比例。

    平均

    “均”是指重量;“平”是指没有差别。“平均”即是说在重量上没有差别。

    “平均”是个千古难题。孔子说:“人不患寡而患不均。”《汉纪》载:“分肉甚平均,父老善之。”取长则要补短,劫富得拿来济贫,“平均”的概念总是与“公平”紧紧相连。

    求平均数有两种方法。

    第一种是\bar{x}=\sum_{i-1}^n\frac{X_i}{n}

    第二种是\bar{x}=基准数+\frac{X_i-基准数}{n}

    第一种是平均数最直接的定义。

    第二种表示方法的意义在于,如果\bar{x}=基准数,那么\frac{X_i-基准数}{n}=0所有数字不管是高于平均数还是低于平均数,它们与平均数的差加总为0。这是方差概念产生的原因。正是因为“差”无法体现出数据之间的分布离散情况,才出现了\sum_{i=1}^n\frac{\left(X_i-\bar{x}\right)^2}{n},就是方差V_x,方差用平方消除了这种困难。

    平均数的缺点在于容易受极值影响,所以当一组数据中存在极值,通常转而寻求 ==中位数== 作代表。

    函数

    这本书对函数的解释同样很有趣。

    从“函数”两字理解:

    “函”是“信函”的“函”。它的意思是信箱,函是箱子的意思。“函数”也可以叫做“箱数”。把一个数字投入箱子里,出来另一个数。这个箱子的功能就是函数表达式f

    从生活中理解:

    就像在自动售货机前买饮料。当按下某款饮料下的按钮时,在出口处就会得到想要的饮料。售货机不就像一个箱子么。

    函数-自动售货机

    从因果角度理解:

    因和果之间应当有四种对应关系,一对一、一对多、多对一、多对多。函数是一对一的关系,这是四种关系里最好的一种关系,既知原因,就可确定结果;或者知道结果,可以反推原因。非常清晰的逻辑关系。

    一叶落而知天下秋,叶落真的是秋的原因吗,当然不是。这种关系就不是函数关系,而是相关关系。真实世界里很少存在一对一的因果关系,这种模糊性更加常见。如果有见微知著的本领,那就已经不是普通人了。

    一次函数

    它有两种表达形式。一种是y=ax+b;另一种是y-q=a(x-p)

    第二种是靠两点确定一条直线的公理写出来的。一条直线经过(x,y)和(p,q),斜率a=\frac{y-q}{x-p},稍微变形就得到了两点式一次函数y-q=a(x-p)

    二次函数

    这应该是高中的基础内容。

    表达式。

    二次函数有好几种表达形式。

    第一种,一般式y=ax^2+bx+c

    第二种,配方法y=a\left(x+\frac{b}{2a}\right)^2-\frac{b^2-4ac}{4a}

    它的推导过程如下

    首先必须知道配方法是怎么工作的。
    (x+k)^2=x^2+2kx+k^2
    所以,x^2+2kx=(x+k)^2-k^2。这个式子的特点在于k之间的联系,一个是一半的关系,一个是一半的平方的关系。
    那么ax^2+bx=a(x^2+\frac{b}{a}x)=a\left[(x+\frac{b}{2a})^2-\left(\frac{b}{2a}\right)^2\right]=a(x+\frac{b}{2a})^2-\frac{b^2}{4a}
    y=ax^2+bx+c=a(x+\frac{b}{2a})^2-\frac{b^2-4ac}{4a}

    更有比较特殊的情况,假如b=0,c=0,则原式变为y=ax^2,当(x,y)向左移动p,向右移动q时,顶点变为(p,q),出现了第三种表示方式,顶点式。

    第三种,顶点式y=a(x-p)^2+q

    最值。

    二次函数的顶点为(-\frac{b}{2a},-\frac{b^2-4ac}{4a})

    判别式。

    判别式\Delta=b^2-4ac用来判断二次不等式ax^2+bx+c=0的解的情况。

    (1)有两个不同解,\Delta<0,两个解为x_{12}=\frac{-b\pm\sqrt[]{\Delta}}{2a}
    (2)有两个相同的解,\Delta=0, x_1=x_2=-\frac{b}{2a}
    (3)无解时,\Delta>0

    ax^2+bx+c=0
    \rightarrow y=ax^2+bx+c=0
    \rightarrow y=a\left(x+\frac{b}{2a}\right)^2-\frac{b^2-4ac}{4a}=0
    \rightarrow (x+\frac{b}{2a})^2= \frac{b^2-4ac}{4a^2}
    a\neq0
    \rightarrow x+\frac{b}{2a}=\pm\frac{\sqrt[]{b^2-4ac}}{2a}
    \rightarrow x_{12}=\frac{-b\pm\sqrt[]{\Delta}}{2a}



    2

    图表

    当展示一组数据分布情况时,表可选择频数分布表,图可选择柱形图、折线图、饼图、带状图。

    柱形图比较数值大小;折线图展示数值变化;饼状图和带状图都显示比例,其中带状图虽然长得像条形图,但带的长短变化是不能代表总量规模的变化的。

    当展示两组数据的分布情况时,可选择点位图。点位图会显出五种关系:

    • 强正相关
    • 弱正相关
    • 强负相关
    • 弱负相关
    • 不相关

    他们表现出的关系似乎类似于一次函数,但二者其实有很大区别。

    相似之处在于,当点位图的图像呈上升趋势,称为正相关,这和一次函数图像上升时,斜率为正相互对应。

    不同之处在于,相关关系并非数据间的一般特征,数据间也不一定有因果关系。这让我想起某一次实验,有人统计了夏天冰激淋的销量和溺水死亡率,两者呈现出很强的正相关。当然冰激淋和溺水死亡根本没有关系,这只是个偶然。

    3

    统计学概念

    当表示一组数据间的离散程度时,可以着眼于两个基本特征:中位数平均值

    平均值受极值影响,所以有时候中位数更能代表数据的总体情况。以中位数为基础,采用四分位数和箱形图可以有效展示数据离散情况。

    当选择平均数时,则需要引入方差

    方差

    V_x=\sum_{i=1}^n\frac{\left(X_i-\bar{x}\right)^2}{n}

    方差会把数据的离散程度扩成平方,数据变得太大,通常令人感到摸不着头脑。假如数学为100分制,一个班的平均成绩\bar{x}=50,如果方差为900分^2,这太奇怪了。所以要把它还原为标准差30分。这说明学生的成绩大概率分布在20-80分之间。

    标准差
    S_x=\sqrt[]{\sum_{i=1}^n\frac{\left(X_i-\bar{x}\right)^2}{n}}=\sqrt[]{\overline{x^2}-\overline{x}^2}

    V_x=\sum_{i=1}^n\frac{\left(X_i-\bar{x}\right)^2}{n}=\frac{\sum_{i=1}^nX_i^2-2\bar{x}\sum_{i=1}^nX_i+n\bar{x}^2}{n}=\overline{x^2}-\overline{x}^2

    采用以平均数为基础的标准差来表示一组数据的离散程度是不错的方式,但是当数据变为2组呢?

    两组数据的分布情况用点位图展示。

    相关系数

    对于同一个点位图,有人也许觉得是强正相关,也有人或许会认为是弱正相关。正是主观感受的不确定性,才出现了相关系数这个概念。

    相关系数用来表示相关关系的强弱

    r_{xy}=\frac{C_{xy}}{S_xS_y},r\in[-1,1]
    C_{xy}=\frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{n}

    除以S_xS_y的原因是为了消除x和y本身的离散性影响,因为r_{xy}主要表示x和y的紧密程度。

    范围 强弱
    (-0.2,0.2) 几乎无相关
    (0.2,0.4) 弱正相关
    (0.4,0.7) 中等程度正相关
    (0.7,1) 强正相关
    (-0.4,-0.2) 弱负相关
    (-0.7,-0.4) 中等程度负相关
    (-1,-0.7) 强负相关

    相关系数的概念是在高斯分布的基础上形成的,为什么接近1或-1时会存在强相关性呢?

    第一步证明r的范围

    i=3为例,

    r_{xy}=\frac{\frac{(x_1-\bar{x})(y_1-\bar{y})+(x_2-\bar{x})(y_2-\bar{y})+(x_3-\bar{x})(y_3-\bar{y})}{n}}{\frac{\sqrt[]{(x_1-\bar{x})^2+(x_2-\bar{x})^2+(x_3-\bar{x})^2}}{\sqrt[]{n}}\frac{\sqrt[]{(y_1-\bar{y})^2+(y_2-\bar{y})^2+(y_3-\bar{y})^2}}{\sqrt[]{n}}}
    \rightarrow 令X_1=x_1-\bar{x},X_2,X_3同;Y_1=y_1-\bar{y},Y_2,Y_3同
    r_{xy}=\frac{X_1Y_1+X_2Y_2+X_3Y_3}{\sqrt[]{X_1^2+X_2^2+X_3^2}\sqrt[]{Y_1^2+Y_2^2+Y_3^2}}
    要证明r_{xy}\in[-1,1],
    则证明\frac{X_1Y_1+X_2Y_2+X_3Y_3}{\sqrt[]{X_1^2+X_2^2+X_3^2}\sqrt[]{Y_1^2+Y_2^2+Y_3^2}}\leq1
    X_1Y_1+X_2Y_2+X_3Y_3\leq\sqrt[]{X_1^2+X_2^2+X_3^2}\sqrt[]{Y_1^2+Y_2^2+Y_3^2}

    该式的证明可以用到二次函数的判别式。

    f(t)=(X_1t-Y_1)^2+(X_2t-Y_2)^2+(X_3t-Y_3)^2 =(X_1^2+X_2^2+X_3^2)t^2-2(X_1Y_1+X_2Y_2+X_3Y_3)t+Y_1^2+Y_2^2+Y_3^2
    如果f(t)\geq0,则\Delta\leq0,即X_1Y_1+X_2Y_2+X_3Y_3\leq\sqrt[]{X_1^2+X_2^2+X_3^2}\sqrt[]{Y_1^2+Y_2^2+Y_3^2}
    那么何时取等号呢?
    f(t)=(X_1t-Y_1)^2+(X_2t-Y_2)^2+(X_3t-Y_3)^2=0
    t=\frac{Y_1}{X_1}=\frac{Y_2}{X_2}=\frac{Y_3}{X_3}

    将其一般化即可证明。

    第二步,当r=1
    \frac{Y-\bar{y}}{X-\bar{x}}=t
    \rightarrow Y=t(X-\bar{x})+\bar{y}
    所有的点都在一条直线上。

    更加直观地理解相关系数,不如以(\bar{x},\bar{y})为原点,重新分割象限。如果落在第一、三象限的点多于二、四象限,那么r_{xy}更可能大于0,甚至接近1。

    相关文章

      网友评论

        本文标题:写给所有人的极简统计学

        本文链接:https://www.haomeiwen.com/subject/vbgiahtx.html