sklearn-User Guide 监督学习-- 广义线性模型

作者: 快乐的小飞熊 | 来源:发表于2016-08-16 00:08 被阅读0次

sklearn-User Guide 监督学习-- 广义线性模型
3.Spark机器学习基础——监督学习
统计基础24：Logistic回归中的系数解读
广义线性模型
11.25 统计学习方法
【R实战高级方法】十三、广义线性模型
监督学习——学习笔记
K-Means聚类算法
统计学习
统计学习方法概论

下面的式子就是一个线性回归，其目标值是输入变量的线性组合，预测值可以表示为：

1.1.2 普通的最小二乘法

线性回归的思路是：用线性系数w来模拟模型，通过调整系数的值，使得预测值和准确值之间的均方误差最小。数学上可表示为：

下面为线性拟合的代码及解释：

#从sklearn中导入linear_model模块包
>>> from sklearn import linear_model
#线性回归类，并且实例化
>>> clf = linear_model.LinearRegression()
#调用fit方法进行拟合
#原型：clf.fit(X, y, sample_weight=None)，其中X=[[0, 0], [1, 1], [2, 2]]，y=[0,1,2]
>>> clf.fit ([[0, 0], [1, 1], [2, 2]],[0,1,2])
LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)
#得到w权值
>>> clf.coef_
array([ 0.5, 0.5])

然而，普通二乘法的系数估计依赖于模型各项的独立性（这样求解线性方程组才会有确切的解）。当矩阵的列之间是近似线性关系的时候，矩阵就是奇异的，导致在用最小二乘估计的时候就会产生随机错误，产生较大的方差。这个地方是在选取特征的时候尤其应该注意的。