Kaggle-共享单车项目分析

Kaggle-共享单车项目分析

作者: 一只努力的小白 | 来源:发表于2018-08-28 22:43 被阅读0次

项目链接：Bike Sharing Demand | Kaggle

思路：1.认识数据

2.特征工程

3.建模并预测

首先，是一个关于自行车租赁预测的题目，Kaggle提供的训练数据是一个月前19点的使用情况，需要预测20天之后的使用情况，数据从Kaggle中下载。

数据共有12列，12个属性的意义如下：

属性的含义

读入训练数据

导入库和读入数据

训练数据总览

12列数据，并且数据没有缺失值。

测试数据总览

测试数据一共有9列，没有缺失值。

为了方便后面做特征工程，将训练数据和测试数据拼接起来。

数据中给出的datetime是例如2011-01-01 00：00：00这样的格式的，为了分析数据，需要将时间分割出月、日、几时

代码

按月份来看用量

按小时用量

根据小时用量可以将时段分为5个：0~7，7~10，10~15，15~20，20~24

各月自行车用量

按星期和小时查看骑行情况

按季节查看骑行情况

按季节的用量情况

每个季节每天的使用情况

每个季节每天的使用情况

工作日与骑行情况

天气与骑行情况

天气与骑行量

随着天气恶劣，自行车用量也在逐渐减少，天气是一个很好的特征。

温度与用量

确实40度的使用情况，41度那么热，可是用量却非常大，可能数据有些异常

各特征相关系数

各特征相关系数

由上图看出，注册用户和非注册用户的自行车使用量相差挺多的，非注册用户的相关系数是0

.69，而注册用户的相关系数为0.97

注册用户用量

非注册用户

剔除离群点

这是一个回归问题，如果目标值服从正态分布比较好，原数据不符合正态分布，需要进行处理

原数据

处理后

虽然不是标准的正态分布，但比原来的数据看上去好一些。

结果

代码地址：GitHub - missbai119/Code

相关文章

网友评论

本文标题：Kaggle-共享单车项目分析

本文链接：https://www.haomeiwen.com/subject/ybltwftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|Kaggle-共享单车项目分析|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！