sklearn：线性回归基础实现（含读取文本文件的三种方式）

作者: 徐胥 | 来源:发表于2021-04-28 15:56 被阅读0次

当我们在小学学习直线的时候，我们已经知道y = ax + b （a<>0）就是表达直线的方程式。在sklearn中的linear_model里的LinearRegresstion，就是我们本次需要需要调用的主角——线性回归模型。

涉及底层数学的我就不在这进行阐述，只简单说，模型利用最小二乘法，让所有已知点到这条直线的距离的平方和最小，这条直线就是我们利用这个模型可以拿到的结果。它最大程度上拟合了我们的已知点，也能让我们对未知点进行基础预测。

首先，我们需要读入数据，我这边是一个txt文档，内含两列数据。

源数据

回忆一下，我们读取文本文档的三种常规方式，分别是python自带函数读取、numpy函数读取、pandas函数读取。我们需要认识到，后续在sklearn模型中拟合的x和y变量，必须是一列数据的形式，用shape的方式来说，就是[-1,1]，意思是随便多少行，但必须是一列哦。

读取方式一

python自带函数读取，我们就会想到readlines，可以一次性把所有内容读取出来，且一行记录就是列表的一个元素。

图1 读取数据

我们发现数据存在一个列表中，其中tab键和回车键被具象成了\t和\n。我们需要依据这两个符号，对数据进行切割。

图2 分割数据

re模块的split函数进行分割非常好用，我们先写入分割模式，遇到\t或者\n的时候，就对数据进行分割。需要注意的是，re.split无法对整个列表进行一次性分割，这是python自带库函数的通常表现。所以我们需要利用循环，对列表内的元素进行逐个分割。

接下来，就是赋值啦。我们利用列表的属性，进行追加赋值。

图3 赋值

但我们发现得到的是一行数据，可是在模型中我们需要使用的是一列数据，所以需要进行数据整形。利用numpy中的reshape函数是一个不错的选择。不过首先是利用array函数将列表变成numpy数组。

图4 整形

完成啦。

读取方式二

numpy库中的loadtxt函数是不错的选择哦。

图5 numpy的loadtxt方式读取数据

通过切片的方式取到x和y。

图6 赋值

图7 整形

读取方式三

针对我们的txt呈现出来的内容，pandas库里read_table，利用tab键进行分列，是比较合适的选择。

图8 读取数据

图9 赋值和变形

以上就是三种读取txt文件的方式啦。

下面就让我们先利用散点图看看这些数据的分布情况吧。

图10 查看数据分布

是很明显的线性回归的数据点分布哦。下面就需要调用sklearn里的线性回归包啦。

图11 模型拟合和模型结果

y = ax + b就是我们本次产出的模型解释啦。另外R^2是模型的解释度，意思是有78%的数据可以用我们的这个线性回归模型可以解释。这里我们只有一个自变量，不需要涉及调整R方，后续可以安排。

图12 模型拟合效果可视化

我们把我们的预测模型的拟合线和实际数据点一起展示。这里再强调一下最小二乘法：黑色实际点到红色拟合线的距离平方和最小的时候，得到这条红色线。

网友评论

本文标题：sklearn：线性回归基础实现（含读取文本文件的三种方式）

本文链接：https://www.haomeiwen.com/subject/zayvrltx.html

sklearn：线性回归基础实现（含读取文本文件的三种方式）