问题的由来
最近在思考一个问题,ANOVA用于衡量多组间(比方说均值)是否有差异,那么在线性回归中,每一个数据点的响应变量也是有“差异的”,ANOVA和线性回归之间可以建立某种联系吗?
线性回归和ANOVA
最近看到一位心理统计学的教师写的一篇文章
https://zhuanlan.zhihu.com/p/128709123?utm_source=qq&utm_medium=social&utm_oi=1112376316921434112
单因素ANOVA
表示方法
其核心思想是假设我有一个数据集

其中n1,n2,......,na可能相同也可能不同
由方差的定义我们知道:
方差 = 平方和 / 自由度
那么在每一个Aa组中,每个元素可表示为:

其中Ai表示为每组的效应,也可以看成是每组内各元素的平均值,eik表示随机误差
那么放宽到所有组,并且定义:

那么μT表示所有组所有元素的均值
αi表示每一组各元素均值与所有组所有元素的均值的差值
那么每一个元素可表示为:

引入虚拟变量
接下来需要引入虚拟变量,即用x1,x2,x3,.....,xα表示yik:

我们想表示哪一个组的元素,就令哪一个组的xα为0:

因此,对于不同的Aα(不同组,这里用 i 表示不同组):

这里的xα可以用0和1表示
由于α受限制因素限制,即:

所以有最后一个α有:

所以去掉最后一个α是不影响最终结果的
因此式子为:

有关xα的表格进一步改写有:

此时引入线性回归,进一步推导:

我们不难发现,最终yαk的表达式和ANOVA的表达式是一样的
最小二乘估计
利用最小二乘思想,我们的目的是求eik和的最小值

分别对μT和αi求偏导,得到正规方程组:

继续计算:



我们结合ANOVA和线性回归来看这个问题,我们不难发现:
-
用线性回归计算的
实际上就是所有组中所有元素的平均值,即之前提到的μT的估计值

实际上就是每组的平均,即之前提到的Ai
-
那么每一个元素估计值可表示为:
当然双因素的ANOVA也是可以这样理解的,只不过很让人眼花缭乱,传送门:
https://zhuanlan.zhihu.com/p/129043279?utm_source=qq&utm_medium=social&utm_oi=1112376316921434112
网友评论