美文网首页
kaggle共享单车项目

kaggle共享单车项目

作者: Jarvan_c806 | 来源:发表于2019-04-06 14:52 被阅读0次

    转载请在文章起始处注明出处,谢谢。

    数据来源:kaggle提供的一份2011-2012的共享单车的数据

    image.png

    datetime : 日期
    season : 季节,1—4分别代表春夏秋冬
    holiday : 是否是假期,0代表否,1代表是(注意,假期区别于周末,类似于节假日,如圣诞节)
    workingday: 是否是工作日,0代表否,1代表是
    weather : 天气情况,可以理解为从1—4分别代表天气越来越恶劣的情况
    temp : 温度
    atemp : 体感温度
    humidity : 湿度
    windspeed : 风速情况
    casual : 非注册用户数
    registered: 注册用户数
    count : 总用户数

    先观测下数据的类型


    image.png

    数据没有缺失,datetime是一个文本格式,需要转换下。

    分析思路:围绕各项因素对租赁总数的影响作分析,划分为三个阶段:按时间的维度、按环境天气等外在因素,最后再分析不同用户之间的关系。

    image.png

    清洗后的数据:


    image.png

    计算相关系数,这里只比较与count租赁总数的相关性,所以我们提取出计算后count一列。

    image.png
    根据计算的相关系数可以发现,温度和体感温度对租赁总数的影响较大且系数接近呈正相关,湿度对租赁总数的影响也很大但呈现的是负相关。此外季节,天气,风速对租赁的总数也有影响,节假日和工作日的影响最小。

    首先我们先根据时间的维度来分析在不同特征下对租赁总数的影响

    image.png
    image.png
    2012年的共享单车总用户数和注册用户数都有明显提升,未注册用户数略有增幅。

    细化时间维度,按月和按各时间段:

    image.png
    image.png
    观察‘month’图可知,一月份的租赁总数最少,随着月份的增加,count逐渐增大,到6月份时到达顶峰, 随后平稳缓缓地递减,到年末时租赁总数降至180左右,不妨接下来画下季节与租赁总数的图结合分析下。
    观察‘hour’图可知,有两个高峰期租赁的总数最多,分别是早上8点和下午的5点,这是上下班的高峰期, 凌晨的时间段最少,白天的时间段相对高峰期较少且相对平稳,可通过引入节假日holiday和星期weekday
    两个离散变量分别观测下情况。

    根据季节特征分别观测下对租赁总数的影响,season :1—4分别代表春夏秋冬

    image.png
    与按月份分析的图表相呼应,季节的特征表现在:春天也就是年初时租赁的总数最少,随后随着天气变暖, 骑车的人数开始增多。夏天和秋天也就是6月到10月份租赁总数最多,随着天气变冷总数又慢慢下降。

    承接‘hour’图,对于引入的节假日和星期日我们先简单做下分析
    holiday : 区别于周末,0代表否,1代表是

    image.png
    image.png
    接下来,我们通过引入holiday和weekday第三个变量来观测下全天各时间段的租赁总数。
    image.png
    image.png
    由图一可知,上下班的高峰期非节假日的租赁总数是远高于节假日的,而午后则是低于节假日,其余 时间段相差不大,与我们的认知相符,节假日大家在家休息,没有上下班的高峰期,到了下午则约小伙伴出去玩,租赁总数上升。
    由图二可知,图形的走势与图一类似,工作日的时候上下班高峰期租赁多,周末则是其余白天时间段租的比较多,符合人们的出行规律。

    接下来,我们按照天气状况的维度具体分析下对租赁总数的影响,weather :从1—4分别代表天气越来越恶劣的情况

    image.png
    可以看出,单车租赁数受天气影响变化明显,天气越差,租的人越少,极端天气4样本数不足,单独选取出来观察下
    image.png
    极端天气的情况在选取的整个样本中只出现了一次,统计时间段为晚上6点,平均值根据之前分析的结果看,在周一上下班高峰的情况下,显得虚高,不具备代表性。但总体根据走势,租赁数应该最低的,毕竟极端天气骑单车出行不太安全。

    温度、湿度等因素在一开始我们已经做了简单的相关性分析,可直接选择作图建立线性回归模型直观地比较下。

    image.png
    接下来我们具体分析下温度等各项指标对租赁总数的影响
    image.png
    image.png
    根据温度图显示,随着温度的升高,租赁数也在提高,在35℃左右时,到达最最大值,然后随着温度的继续 升高租赁数加速下降。确实,天气晴朗温度适宜的话骑车的人会变多,而到40℃时人们都不愿出门。
    湿度的图表显示,湿度在20左右时,租赁总数最多,随着湿度的增大而减小。
    风速表中,租赁数在正常风的影响下 变化不是很大,在风速继续变大的情况下出现波动,租赁数量减少,50后面又升高应该是收到了异常值的干扰。风速表显示,只要不是特别大的狂风,人们还是愿意骑车的,至少表明了风速不是主要的影响因素。

    在文章的开头,我们从较大的时间维度计算出了2011年与2012年未注册用户,注册用户和总用户数的各项值,因而
    针对不同的用户群体我们可以继续细化下时间维度,观察下他们之间的微妙的变动情况,租赁总数count我们之前已
    经根据各项指标分析过了,所以接下来我们只分析未注册用户(casual)和注册用户(registered)之间的情况。

    image.png
    image.png
    image.png
    按月分组我们可以看出非注册用户租赁数呈现一个正态分布的图形,结合注册用户再观察,夏天时两者需求都增高;按星期数我们发现,注册用户在工作日的时候租得多,周末则租的少,反观非注册用户则与之相反,结合实际可解释其原因,注册用户工作日天数多,骑车次数也多,所以注册会员比较方便,而非注册用户只需周末两天出门骑或者偶尔租赁;按照时间段的图,我们也能看出,注册用户上下班的点用的很多,非注册用户全天时间段都相对平缓,从而也能侧面印证之前的结论。

    总结:
    1、全年租赁总数较往年增长明显,共享单车越来越为人们所接受,用户群体正在扩大。
    2、春天及年初时租赁人数最少,夏天秋天时最多,冬天相对较少。
    3、工作日时,上下班高峰期租赁总数最多。周末及节假日时,午后时间段租赁人数最多。
    4、温度在35,湿度在20左右时,租赁总数最多,可加大投放量。风速没有明显的影响。
    5、注册用户在工作日的租赁数大于周末,非注册用户则相反。租赁时间点与3分析情况一致。

    相关文章

      网友评论

          本文标题:kaggle共享单车项目

          本文链接:https://www.haomeiwen.com/subject/bzsriqtx.html