任务内容
- 学习任务(一)
62-71集 线性回归 - 学习任务(二)
72-81集 卡方分布与方差分析
学习笔记
简单线性回归
线性回归是基于某个变量X(自变量)来预测变量Y(因变量)的值。
采用最小二乘法,即最小化平方误差和(SSE)

分别对

参考:理解简单线性回归的概念
决定系数
SSR:预测数据与原始数据均值之差的平方和
SST:原始数据与原始数据均值之差的平方和
SSE : 该统计参数计算的是拟合数据和原始数据对应点的误差的平方和
决定系数是通过数据变化来表征一个拟合的好坏,取值范围为[0,1],越接近1,表明方程的变量对y的解释能力越强,这个模型对数据的拟合也就越好。
参考: R^2
协方差与相关系数
协方差公式:

协方差表示两个变量X和Y的同向变化情况,如果是正的,表示同向变化,负的表示反向变化,越大表示相关性越大。
如果某一时刻的协方差为负数,也不一定说明他们反向运动,具体要结合整体情况来判断。
相关系数公式:

相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差。
变化范围为-1到+1.+1表示完全正相关,-1表示完全负相关。
参考:协方差与相关系数
补充
机器学习线性回归模型可以参考:
线性回归
线性回归详解
线性回归算法解析
分布
概率分布主要用于检查实际结果与期望结果之间何时存在显著差别。
分布的两个用途:
- 第一用于检验拟合优度,也就是可以检验一组给定的数据与指定分布的吻合程度。
- 第二可以用于两个变量之间的独立性,通过这种方法可以检查变量之间是否存在某种关联。
自由度:v=(组数)-(限制数)
显著性水平:
假设检验
不同分布不同情况下的自由度:
对于一张大小为h*k的表格,自由度为:
F检验
F分布是两个卡方分布(具有不同的自由度)的比值。
方差分析(ANOVA),又叫F检验,简单来说,就是求得F统计量(组间方差/组内方差),然后查F表,如果大于临界值(一般是0.05显著性水平下)则拒绝原假设,即组间具有显著性的差异。
F统计量 = 组间方差/组内方差
这里的方差等于平方和除以自由度,组间的自由度为(组数-1),组内自由度为组数*(样本量-1),此样本量可以不一样,所以方差分析各组的样本量可以不一样;
实际中我们的主要问题是看组间是否有差异,ANOVA告诉我们组间的差异不仅要看组间的波动,还要看组内的波动,如果组内波动太大的话,很可能不存在差异,只是组内的数据乱而已,当然组间的波动越大,则组间的差异越大。
参考:F检验(ANOVA)
记录几个好的博客,回头学习:
通俗理解T检验与F检验的区别
Ftest(F检验,P值求取)
网友评论