![](https://img.haomeiwen.com/i13274039/edfed63b655d8f7f.jpg)
#一
使用的数据集是SofaSofa上练习赛的自行车数据,通过简单的分析,构建线性回归模型,RMSE评价好于标杆模型中的线性回归模型和决策树回归模型。
#二
第一步,看看训练数据长啥样子,加载数据,查看下前3个观测
![](https://img.haomeiwen.com/i13274039/994e4384137bb07e.png)
看下数据的说明
![](https://img.haomeiwen.com/i13274039/5a9949efb12b473c.png)
看下观测数量以及有没有缺失值
![](https://img.haomeiwen.com/i13274039/b90a33a44892444b.png)
可以看到,共有10000个观测,没有缺失值。
接下来可以看看每个变量的基础描述信息
![](https://img.haomeiwen.com/i13274039/876ba32ebda6c03a.png)
通过观察可以得出一些猜测,如城市0和城市1基本可以排除南方城市;整个观测记录时间跨度较长,可能还包含了一个长假期数据等。
最后看看相关系数(为了方便查看,绝对值低于0.2的就用nan替代)
![](https://img.haomeiwen.com/i13274039/9b8eeb0e91f5b859.png)
从相关性角度去看,用车的时间和当时的气温对对借取数量y有较强关系;气温和体感气温显强正相关(共线性),这个和常识一致
#三
现在开始看看图。
先看下城市和时间变量,对借取量y有没有影响
![](https://img.haomeiwen.com/i13274039/2203a07cb70d742e.png)
城市0的借取量高于城市1,借取量的高峰在早上8点和晚上5/6点,和日常上下班高峰时间基本吻合,估计都是命苦的上班族
节假日是否会影响借取量?
![](https://img.haomeiwen.com/i13274039/005e1717e7fa9d41.png)
可以看出,只对城市0有影响,但影响有限
![](https://img.haomeiwen.com/i13274039/cca904b7956e4580.png)
![](https://img.haomeiwen.com/i13274039/8646c23a07dc264b.png)
温度对借取量呈现线性相关
![](https://img.haomeiwen.com/i13274039/3fed6e66fff0d3f0.png)
天气对借取量影响明显,而且城市0的人好猛,强降雨天气依然借取出行
![](https://img.haomeiwen.com/i13274039/85ec94ccde34aedd.png)
风速对借取量也有影响,无风或大风天借取量较少
#四
依据上面的情况,选择城市、时间、当时的气温、天气状况、风速等5个变量作为特征变量拟合模型
![](https://img.haomeiwen.com/i13274039/25ac6073ab8accc2.png)
模型训练完成,剩下的就是使用测试集进行预测,上传预测结果
![](https://img.haomeiwen.com/i13274039/db5037745031b847.png)
比标杆的线性回归和决策树回归要好。
网友评论