美文网首页
sklearn:线性回归基础实现(含读取文本文件的三种方式)

sklearn:线性回归基础实现(含读取文本文件的三种方式)

作者: 徐胥 | 来源:发表于2021-04-28 15:56 被阅读0次

    当我们在小学学习直线的时候,我们已经知道y = ax + b (a<>0)就是表达直线的方程式。在sklearn中的linear_model里的LinearRegresstion,就是我们本次需要需要调用的主角——线性回归模型。

    涉及底层数学的我就不在这进行阐述,只简单说,模型利用最小二乘法,让所有已知点到这条直线的距离的平方和最小,这条直线就是我们利用这个模型可以拿到的结果。它最大程度上拟合了我们的已知点,也能让我们对未知点进行基础预测。

    首先,我们需要读入数据,我这边是一个txt文档,内含两列数据。

    源数据

    回忆一下,我们读取文本文档的三种常规方式,分别是python自带函数读取、numpy函数读取、pandas函数读取。我们需要认识到,后续在sklearn模型中拟合的x和y变量,必须是一列数据的形式,用shape的方式来说,就是[-1,1],意思是随便多少行,但必须是一列哦。

    读取方式一

    python自带函数读取,我们就会想到readlines,可以一次性把所有内容读取出来,且一行记录就是列表的一个元素。

    图1 读取数据

    我们发现数据存在一个列表中,其中tab键和回车键被具象成了\t和\n。我们需要依据这两个符号,对数据进行切割。

    图2 分割数据

    re模块的split函数进行分割非常好用,我们先写入分割模式,遇到\t或者\n的时候,就对数据进行分割。需要注意的是,re.split无法对整个列表进行一次性分割,这是python自带库函数的通常表现。所以我们需要利用循环,对列表内的元素进行逐个分割。

    接下来,就是赋值啦。我们利用列表的属性,进行追加赋值。

    图3 赋值

    但我们发现得到的是一行数据,可是在模型中我们需要使用的是一列数据,所以需要进行数据整形。利用numpy中的reshape函数是一个不错的选择。不过首先是利用array函数将列表变成numpy数组。

    图4 整形

    完成啦。

    读取方式二

    numpy库中的loadtxt函数是不错的选择哦。

    图5 numpy的loadtxt方式读取数据

    通过切片的方式取到x和y。

    图6 赋值 图7 整形

    读取方式三

    针对我们的txt呈现出来的内容,pandas库里read_table,利用tab键进行分列,是比较合适的选择。

    图8 读取数据 图9 赋值和变形

    以上就是三种读取txt文件的方式啦。


    下面就让我们先利用散点图看看这些数据的分布情况吧。

    图10 查看数据分布

    是很明显的线性回归的数据点分布哦。下面就需要调用sklearn里的线性回归包啦。

    图11 模型拟合和模型结果

    y = ax + b就是我们本次产出的模型解释啦。另外R^2是模型的解释度,意思是有78%的数据可以用我们的这个线性回归模型可以解释。这里我们只有一个自变量,不需要涉及调整R方,后续可以安排。

    图12 模型拟合效果可视化

    我们把我们的预测模型的拟合线和实际数据点一起展示。这里再强调一下最小二乘法:黑色实际点到红色拟合线的距离平方和最小的时候,得到这条红色线。

    相关文章

      网友评论

          本文标题:sklearn:线性回归基础实现(含读取文本文件的三种方式)

          本文链接:https://www.haomeiwen.com/subject/zayvrltx.html