Lesson 16 回归分析
Regression Analysis:
研究自变量与因变量之间关系形式的分析方法,它主要是通过建立因变量y与影响它的自变量xi(i=1,2,3...)之间的回归模型,来预测因变量y的发展趋势。
例如销售额对推广费用有依存关系
回归分析分类
线性回归分析:
- 简单线性回归
- 多重线性回归
非线性回归分析:
- 逻辑回归
- 神经网络
简单线性回归模型
y = a + bx + e
y: 因变量 dependent variable
x: 自变量 independent variable
a: 常数项, 截距 intercept
b: 回归系数,斜率 slope
e: 随机误差 random error
回归分析的步骤:
- 根据预测目标,确定自变量和因变量
- 绘制散点图,确定回归模型类型
- 估计模型参数,建立回归模型 (最小二乘法Least square method)
使观测点和估计点的距离平方和最小,规避了负数风险 - 对回归模型进行检验
回归方程的精度就是用来表示实际观测点和回归方程的拟合程度的指标,使用判定系数来度量
判定系数 = 相关系数R2 = ESS/TSS = 1 - RSS/TSS
TSS: 总离差平方和
ESS: 回归平方和
RSS: 残差平方和 - 利用回归模型进行预测
根据已有的自变量数据,预测需要的因变量对应结果
sklearn中进行建模求解的模式
画出散点图,对模型产生认识(确定是否用线性回归模型)
plt.scatter(data.广告投入, data.销售额)
data.corr()
确定自变量与因变量,建立模型
lrModel = sklearn.linear_model.LinearRegression()
训练模型
lrModel.fit(x, y)
模型评估
lrModel.score(x, y)
模型预测
lrModel.predict(x, y)
Lesson 17 多重线性回归模型
网友评论