美文网首页
成对数据的统计分析

成对数据的统计分析

作者: 椰子数学 | 来源:发表于2022-05-28 19:41 被阅读0次

    第1节 成对数据的统计分析

    一、变量间的相关关系
    1、两个变量有关系,但又没有确切到可由其中一个区精确地决定另一个的程度,这种关系称为相关关系;
    2、如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们称这两个变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关;
    3、一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关;注:如果散点落在某条曲线附近,而不是落在一条直线附近,说明这两个变量具有相关性,但不是线性相关;如果散点落在一条折线附近,这两个变量也具有相关性,但它们既不是正相关,也不是负相关;
    4、一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关。

    二、样本相关系数:用来衡量两个变量的线性相关关系
    1、定义 r=
    我们称r为变量x和变量y的样本相关系数

    2、特征
    (1)当r>0时,称成对数据正相关,这时,当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大
    (2)当r<0时,称成对数据负相关,这时,当其中一个数据的值变小时,另一个数据的值通常会变大;当其中一个数据的值变大时,另一个数据的值通常会变小
    (3)样本相关系数r的取值范围为[-1,1]
    (4)样本相关系数r的绝对值大小可以反映成对数据之间线性相关的程度:
    当|r|越接近1时,成对数据的线性相关程度越强
    当|r|越接近0时,成对数据的线性相关程度越弱

    第2节 一元线性回归模型及其应用
    一、一元线性回归模型
    x与y的关系可以表示为:
    我们称上式为y关于x的一元线性回归模型,其中,y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是y与bx+a之间的随机误差

    二、一元线性回归模型参数的最小二乘估计
    1、经验回归方程
    我们将:

    关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线。这种求经验回归方程的方法叫做最小二乘法,求得的b,a叫做b,a的最小二乘估计。
    注:由于a=y-bx,即(x,y)满足经验回归方程y=bx+a,所以经验回归直线必定过样本点的中心(x,y)

    2、残差分析:
    对于响应变量y,通过观测得到的数据称为观测值,通过经验回归方程得到的y称为预测值,观测值减去预测值称为残差,残差随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析。注:残差可以是正数,也可以使负数,也可以是0
    注:
    (1)如果在残差的散点图中,残差比较均匀地分布在横轴的两边,说明残差比较符合一元线性回归模型的假定,是均值为0,方差为的随机变量的观测值
    (2)可以通过比较残差的平方和来比较两个模型的效果,残差平方和越小,模型的拟合效果越好;残差平方和越大,模型的拟合效果越差。
    也可以用R的平方来比较两个模型的拟合效果,R的平方计算公式为:
    R的平方越大,模型的拟合效果越好,R的平方越小,模型的拟合效果越差。

    第三节 列联表与独立性检验
    一、分类变量
    我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量,分类变量的取值可以用实数表示。

    二、22列联表
    在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存,我们将下表表示的数据统计表称为分类变量x和y的抽样数据的2
    2列联表

    2*2列联表给出了成对分类变量数据的交叉分类频数

    三、独立性检验
    构造随机变量: 利用 的取值判断分类变量x和y是否独立的方法称为x 的独立性检验,读作“卡方独立性检验“简称独立性检验””

    相关文章

      网友评论

          本文标题:成对数据的统计分析

          本文链接:https://www.haomeiwen.com/subject/hhfwprtx.html