Chapter 1: A Linear Regression M

作者: Accelerator_086 | 来源:发表于2018-11-22 17:22 被阅读7次

Chapter 1: A Linear Regression M
2020-02-06
线性回归算法
tensorflow 已经完成高级别的模型封装种类
线性回归-1-线性回归入门
M.L.-Classification and Represen
第2周编程作业-Coursera机器学习-吴恩达
R-建模及预测
第二课梯度下降
No.7 Regularization

计量经济学总体介绍：

知乎上有一位前辈总结的很不错，我就不详细介绍了。

知乎：（逍遥温温）#课程体验#计量经济学学习体验

一、一元线性回归模型

参考书目：

《计量经济学（第四版）》高等教育出版社第二章

《高级计量经济学及Stata应用（第二版）》第三章、第五章、第六章

知乎：一元线性回归与R实现

1、总体回归、样本回归

①总体回归：

1

2

②样本回归：

1

2

SRF: Sample Regression Function
PRF: Population Regression Function

2、一元线性回归，对随机干扰项的基本假设（古典假设）：（5点）

①

1

②

1

③

1

④

1

⑤

1

简单记忆如下：

1

3、一元线性回归，参数估计：

①最小二乘法（Least Squares）：

1

上述推导中注意：

1

另一种解释方式：

1

2

②最大似然法（Maximum Likelihood）:

1

4、一元线性回归，最小二乘估计量，统计性质：

①线性性质：

1

②无偏性：

1

③有效性：（最小方差性）

1

④总体而言：

1

5、一元线性回归，统计检验、预测：

①拟合优度检验：

1

②变量的显著性检验：

1

③参数检验的置信区间估计：

1

④总体条件均值置信区间、个别值预测值置信区间：

1

2

6、Stata代码实现一元线性回归
1.散点图：
scatter y x
2.相关系数：
corr y x
pwcorr y x,sig
（在Stata中，命令corr用于计算一组变量间的协方差或相关系数矩阵；命令pwcorr可用于计算一组变量中两两变量的相关系数，同时还可以对相关系数的显著性进行检验；命令pcorr 用于计算一组变量中两两变量的偏相关系数并进行显著性检验。）
3.回归：
reg y x
4.预测：
predict yy,xb(拟合值预测)
predict e,r（残差值预测）
5.预测值的预测区间：
predictnl 预测变量名=predict(xb),ci(lb1 ub1) l(95) (均值预测区间)
adjust x=22001,stdf ci(个别值预测区间)

reg y x

图中左上角
图中左上角的是对于regress后得到的model 的一个“analysis-of-variance（ANOVA）”表格。
其每一列的头：SS ， df , MS 分别对应：“sum of squares”, “degrees of freedom”和“mean square”。
第一列：可以知道Model的SS（15241773.7）/Total的SS(17598834.8)=R-squared(0.8661)即R2。R2的意思就是说，这个模型说明解释了这些变量中多少的variance。
第二列：自由度，一共有N个sample这个数据集就有（N-1）个df(因为要减去均值)。模型的自由度由模型有几个predictor决定。
第三列：MS一般是用于计算F-statistic的。

图中的右上角
图中的右上角是另一些统计描述：
第一行：Number of obs 一共有多少个sample
第二行：F(df of Model, df of Residual) = MS of Model(15241773.7)/MS of Residual(130947.839) = 116.40
The F statistic tests the hypothesis that all coefficients excluding the constant are zero.
这个F值的H0假设是：所有的predictor都不对y产生影响，即所有predictor的coef都会是0，所有的predictor都不significant。
第三行：Prob > F 的值是上述的H0假设的成立的可能性。当其趋近于0的时候，说明至少会有一些predictor的coef不为0.(p-value)
第四行：R-squared
第五行：Adj R-squared 由于R2存在一个问题：无论什么predictor加到模型中，R2都会变大。为了避免这个问题，Adj R-squared惩罚了模型的复杂度。
第六行：root mean squared error是MS of Residual的平方根（361.87 = 130947.839^0.5），其意义是回归模型的residual部分的standard deviation。

图中下面
图中下面的部分就是regression的结果了。
最后一行是模型的常数项
第一列是模型的系数，根据系数我们就可以写出回归的线性模型了
第二列是线性回归系数的standard error
这个系数是对前面coef的估计的可信度估计，越小越好。
这是估计的标准误差，是残差均方开根号的值，残差均方等于残差平方和除以自由度，残差平方和等于总平方和减去回归平方和
第三列是t-statisitic
正常T-statistic应该在0假设(null hypothesis)为真时,服从T分布(T-distribution).
粗略地讲这个值大于2，对应的predictor就是significant。
Coefficient除以standard error 等于 t-statistic
第四列是这个t-statistic的p-value，一般来讲小于0.05就是significant的
第五六列是95%confidence interval of coef，系数的95%置信区间。

清晰版pdf文档链接：
https://hawkcj4-my.sharepoint.com/:b:/g/personal/xls574_officework_top/EaI9frepv4VKlkH96adeNF4BgiT4IzP2huxqf32k_tWJbA?e=eGMtbw