美文网首页
统计学笔记(四):线性回归

统计学笔记(四):线性回归

作者: LucasOoo | 来源:发表于2019-04-09 17:22 被阅读0次

    基础知识:

    • 因变量:被预测的变量(y)
    • 自变量:预测因变量值的一个或者多个变量(x)
    • 只包括一个自变量和一个因变量,二者之间的关系可以用一条直线近似表示,这种回归分析被称为简单线性回归

    简单线性回归的估计步骤:


    image.png

    估计的简单线性回归方程:


    image.png

    最小二乘法

    最小二乘法准则:


    image.png

    估计的回归方程的斜率和Y轴截距求解:


    image.png

    判定系数:提供了一个拟合优度的度量
    误差平方和(SSE):样本观测值与预测值的离差平方和

    image.png

    总的平方和(SST):在没有任何相关变量信息的情况下,以样本均值作为估计值所产生的的误差度量

    image.png

    回归平方和(SSR):度量回归线上的预测值与期望值的偏离程度

    image.png

    三者之间的关系:

    image.png
    判定系数:
    image.png
    • 𝑟^2理解为总平方和中能被估计的回归方程解释的百分比。

    相关系数:

    image.png

    显著性检验

    image.png

    t检验

    关于线性回归方程b1的抽样分布:


    image.png

    b1的估计标准差为:


    image.png

    简单线性回归显著性的t检验:


    image.png

    β1的置信区间:

    image.png

    简单线性回归显著性的F检验:

    image.png
    ANOVA(方差分析)表:
    image.png
    • 每一个方差分析表中,总平方和是回归平方和与误差平方和之和,同时,总平方和的自由度是回归平方和与误差平方和的自由度之和;
    • 回归分析能识别变量之间如何相互联系的,不能用来作为变量之间存在因果关系的根据。

    关于显著性检验解释的注意点:

    • 我们利用估计的回归方程对于x的样本观测值范围以内的x值进行预测,应该是完全有把握的。但是超过这一范围就需要十分谨慎

    区间估计

    置信区间:对于x的一个给定值,y的平均值的区间估计

    • 当x为平均值是,可得到y的平均值最佳或最精确的估计量,x偏离平均值越远,y的平均值的置信区间就变得越宽:


      image.png

    预测区间:对于x的一个给定值,对应y的一个新的观测值,也即对y的一个个别值进行预测的区间估计

    • 当自变量的值x越接近平均值,置信区间和预测区间就越精确


      image.png

    相关文章

      网友评论

          本文标题:统计学笔记(四):线性回归

          本文链接:https://www.haomeiwen.com/subject/kghiiqtx.html