美文网首页机器学习与数据挖掘
Deep Learning学习笔记-线性回归的简单实践

Deep Learning学习笔记-线性回归的简单实践

作者: 伊甸亚当 | 来源:发表于2017-02-07 12:58 被阅读405次

本篇文章中,我们用 Python 代码写个小程序,根据出生时的body mass index(BMI)数据,使用线性回归来预测寿命。在这之前,我们先准备一下建立这个模型所需要的必要工具。

在这个线性回归模型中,需要用到scikit-learn库的 LinearRegression class,这个 class 提供了fit()函数,它根据所输入的数据来匹配模型,以下是基本的使用方法:

>>> fromsklearn.linear_modelimportLinearRegression
>>> model = LinearRegression()
>>> model.fit(x_values, y_values)

上面的例子中,model 变量是线性回归的模型,x_values 和 y_values 作为训练数据输入,model 根据 x_values 和 y_values 进行调整。“调整”的意思是——找到一条最佳的“线”能够和训练数据进行匹配。之后我们就可以使用 predict() 函数进行预测。

>>> print(model.predict([ [127], [248] ]))
[[438.94308857,127.14839521]]

predict() 函数返回一个预测结果的数组,里面的元素就是预测的结果,分别对应输入数组中的元素。对于第一个输入——[127],返回的预测值为438.94308857,第二个输入——[248],返回的预测值为127.14839521。输入数组中的元素使用[127]格式,而不是127,是因为我们可以用多个数据的组合进行预测。以后我们会在线性回归中使用多个数据,现在我们先使用一个数据值。


实践
在这个实践中,我们会用到以下数据集:“各国家人的平均寿命” 和 “各国家男性的平均BMI”,这些数据来自 Gapminder

假设数据集存储在 “bmi_and_life_expectancy.csv” 文件中。这份数据包含三个字段:country(国家)、Life expectancy(寿命)、BMI(一个小孩出生时的BMI)。我们会根据BMI来预测寿命。

完整代码如下:

# 导入 pandas库 和 LinearRegression类
import pandas as pd
from sklearn.linear_model import LinearRegression

# 使用 pands 的 read_csv 函数把数据加载到 dataframe 中
#将 dataframe 赋值给 bmi_life_data 变量
bmi_life_data = pd.read_csv("bmi_and_life_expectancy.csv")

#使用 scikit-learn 的 LinearRegression 建立一个回归模型,并赋值给 bmi_life_model
bmi_life_model = LinearRegression()
bmi_life_model.fit(bmi_life_data[['BMI']], bmi_life_data[['Life expectancy']])

# 使用 21.07931这个 BMI 进行预测,并将结果赋值给 laos_life_exp 变量。
laos_life_exp = bmi_life_model.predict(21.07931)
print(laos_life_exp)

代码演示

print输出的就是预测后的结果60.31564716。


使用线性回归中时要注意
线性回归是基于一系列的假设,并不适用于所有的场景,有些问题你应该要注意。


线性回归适用于数据是线性的情况
线性回归是从训练数据中找到一条匹配的直线。如果训练数据中的数据之间的关系并不是线性的,那么你需要做一些调整(转换你的训练数据),或者使用其他类型的模型。

数据的关系是非线性的

线性回归对异常值敏感
线性回归尝试找到一条最匹配训练数据的直线。如果你的数据集中有一些极度偏差的数据(与一般的模式不匹配),会导致相差很大的结果。

下面的
![Uploading AA5DBE35-C653-4CC9-ACEC-B1B89CB565DF_605091.png . . .]
图,模型与数据匹配得非常好

数据与模型匹配度高

然而,添加了一些异常值之后(与模型不匹配),对模型的预测有很大的影响,如下图:

添加了异常值

通常,你希望一个模型能够匹配大多数的数据,但一定要注意这些异常值。

相关文章

网友评论

    本文标题:Deep Learning学习笔记-线性回归的简单实践

    本文链接:https://www.haomeiwen.com/subject/kigpittx.html