美文网首页数据蛙数据分析每周作业
Datawhale统计学一周集训——任务四

Datawhale统计学一周集训——任务四

作者: 晓迦 | 来源:发表于2019-01-07 23:55 被阅读9次

    任务内容

    • 学习任务(一)
      62-71集 线性回归
    • 学习任务(二)
      72-81集 卡方分布与方差分析

    学习笔记

    简单线性回归

    线性回归是基于某个变量X(自变量)来预测变量Y(因变量)的值。
    Y=b_0+b_1x+e
    采用最小二乘法,即最小化平方误差和(SSE)


    分别对
    参考:理解简单线性回归的概念

    决定系数R^2

    R^2 = \frac{SSR}{SST}=1-\frac{SSE}{SST}
    SSR:预测数据与原始数据均值之差的平方和
    SST:原始数据与原始数据均值之差的平方和
    SSE : 该统计参数计算的是拟合数据和原始数据对应点的误差的平方和
    决定系数是通过数据变化来表征一个拟合的好坏,取值范围为[0,1],越接近1,表明方程的变量对y的解释能力越强,这个模型对数据的拟合也就越好。
    参考: R^2

    协方差与相关系数

    协方差公式:


    协方差表示两个变量X和Y的同向变化情况,如果是正的,表示同向变化,负的表示反向变化,越大表示相关性越大。
    如果某一时刻的协方差为负数,也不一定说明他们反向运动,具体要结合整体情况来判断。

    相关系数公式:


    相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差。
    变化范围为-1到+1.+1表示完全正相关,-1表示完全负相关。
    参考:协方差与相关系数

    补充

    机器学习线性回归模型可以参考:
    线性回归
    线性回归详解
    线性回归算法解析

    X^2分布

    X^2概率分布主要用于检查实际结果与期望结果之间何时存在显著差别。
    X^2分布的两个用途:

    • 第一用于检验拟合优度,也就是可以检验一组给定的数据与指定分布的吻合程度。
    • 第二可以用于两个变量之间的独立性,通过这种方法可以检查变量之间是否存在某种关联。

    自由度:v=(组数)-(限制数)
    显著性水平:\alpha

    X^2假设检验

    不同分布不同情况下的自由度:


    对于一张大小为h*k的表格,自由度为:


    F检验

    F分布是两个卡方分布(具有不同的自由度)的比值。

    方差分析(ANOVA),又叫F检验,简单来说,就是求得F统计量(组间方差/组内方差),然后查F表,如果大于临界值(一般是0.05显著性水平下)则拒绝原假设,即组间具有显著性的差异。

    F统计量 = 组间方差/组内方差
    这里的方差等于平方和除以自由度,组间的自由度为(组数-1),组内自由度为组数*(样本量-1),此样本量可以不一样,所以方差分析各组的样本量可以不一样;

    实际中我们的主要问题是看组间是否有差异,ANOVA告诉我们组间的差异不仅要看组间的波动,还要看组内的波动,如果组内波动太大的话,很可能不存在差异,只是组内的数据乱而已,当然组间的波动越大,则组间的差异越大。
    参考:F检验(ANOVA)
    记录几个好的博客,回头学习:
    通俗理解T检验与F检验的区别
    Ftest(F检验,P值求取)

    相关文章

      网友评论

        本文标题:Datawhale统计学一周集训——任务四

        本文链接:https://www.haomeiwen.com/subject/wftkrqtx.html