成对数据的统计分析

作者: 椰子数学 | 来源:发表于2022-05-28 19:41 被阅读0次

成对数据的统计分析
当我们的excel文档被误删除了怎么恢复？
(九)数据的学习|python数据分析与展示(学习笔记)
R包：phyloseq: 扩增子统计分析利器
2022-04-25GIS空间分析
跟小白学Python数据分析——描述性统计分析
数据分析的统计学基础有哪些？收藏这一篇文章足够了
SPSS基本统计分析
金融数据挖掘之数据挖掘与分析技术
再读大数据时代

第1节成对数据的统计分析

一、变量间的相关关系
1、两个变量有关系，但又没有确切到可由其中一个区精确地决定另一个的程度，这种关系称为相关关系；
2、如果从整体上看，当一个变量的值增加时，另一个变量的相应值也呈现增加的趋势，我们称这两个变量正相关；如果当一个变量的值增加时，另一个变量的相应值呈现减少的趋势，则称这两个变量负相关；
3、一般地，如果两个变量的取值呈现正相关或负相关，而且散点落在一条直线附近，我们称这两个变量线性相关；注：如果散点落在某条曲线附近，而不是落在一条直线附近，说明这两个变量具有相关性，但不是线性相关；如果散点落在一条折线附近，这两个变量也具有相关性，但它们既不是正相关，也不是负相关；
4、一般地，如果两个变量具有相关性，但不是线性相关，那么我们就称这两个变量非线性相关或曲线相关。

二、样本相关系数：用来衡量两个变量的线性相关关系
1、定义 r=
我们称r为变量x和变量y的样本相关系数

2、特征
（1）当r＞0时，称成对数据正相关，这时，当其中一个数据的值变小时，另一个数据的值通常也变小；当其中一个数据的值变大时，另一个数据的值通常也变大
（2）当r＜0时，称成对数据负相关，这时，当其中一个数据的值变小时，另一个数据的值通常会变大；当其中一个数据的值变大时，另一个数据的值通常会变小
（3）样本相关系数r的取值范围为[-1,1]
（4）样本相关系数r的绝对值大小可以反映成对数据之间线性相关的程度：
当|r|越接近1时，成对数据的线性相关程度越强
当|r|越接近0时，成对数据的线性相关程度越弱

第2节一元线性回归模型及其应用
一、一元线性回归模型
x与y的关系可以表示为：
我们称上式为y关于x的一元线性回归模型，其中，y称为因变量或响应变量，x称为自变量或解释变量；a和b为模型的未知参数，a称为截距参数，b称为斜率参数；e是y与bx＋a之间的随机误差

二、一元线性回归模型参数的最小二乘估计
1、经验回归方程
我们将：

关于x的经验回归方程，也称经验回归函数或经验回归公式，其图形称为经验回归直线。这种求经验回归方程的方法叫做最小二乘法，求得的b，a叫做b，a的最小二乘估计。
注：由于a=y-bx，即（x，y）满足经验回归方程y=bx＋a，所以经验回归直线必定过样本点的中心（x，y）

2、残差分析：
对于响应变量y，通过观测得到的数据称为观测值，通过经验回归方程得到的y称为预测值，观测值减去预测值称为残差，残差随机误差的估计结果，通过对残差的分析可以判断模型刻画数据的效果，以及判断原始数据中是否存在可疑数据等，这方面工作称为残差分析。注：残差可以是正数，也可以使负数，也可以是0
注：
（1）如果在残差的散点图中，残差比较均匀地分布在横轴的两边，说明残差比较符合一元线性回归模型的假定，是均值为0，方差为的随机变量的观测值
（2）可以通过比较残差的平方和来比较两个模型的效果，残差平方和越小，模型的拟合效果越好；残差平方和越大，模型的拟合效果越差。
也可以用R的平方来比较两个模型的拟合效果，R的平方计算公式为：
R的平方越大，模型的拟合效果越好，R的平方越小，模型的拟合效果越差。

第三节列联表与独立性检验
一、分类变量
我们经常会使用一种特殊的随机变量，以区别不同的现象或性质，这类随机变量称为分类变量，分类变量的取值可以用实数表示。

二、22列联表
在实践中，由于保存原始数据的成本较高，人们经常按研究问题的需要，将数据分类统计，并做成表格加以保存，我们将下表表示的数据统计表称为分类变量x和y的抽样数据的22列联表

2*2列联表给出了成对分类变量数据的交叉分类频数

三、独立性检验
构造随机变量：利用的取值判断分类变量x和y是否独立的方法称为x 的独立性检验，读作“卡方独立性检验“简称独立性检验””