项目概述:
利用 Python 探索三大美国城市的自行车共享系统相关的数据:芝加哥、纽约和华盛顿特区。此项目将使用 Motivate 提供的数据探索自行车共享使用模式,编写代码导入数据,并通过计算描述性统计数据回答有趣的问题。还将写一个脚本,该脚本会接受原始输入并在终端中创建交互式体验,以展现这些统计信息。部分数据如下:
报告内容:
数据分析过程主要分5个过程:
(1)预览数据,提出问题
(2)整理清洗数据
(3)分析数据
(4)得出结论
(5)传达结果
分析过程:
1.提出问题,通过此项目希望以下部分问题能得到回答:
1)起始时间(Start Time 列)中哪个月份最常见?
2)起始时间中,一周的哪一天(比如 Monday, Tuesday)最常见?
3)起始时间中,一天当中哪个小时最常见?
4)总骑行时长(Trip Duration)是多久,平均骑行时长是多久?
5)哪个起始车站(Start Station)最热门,哪个结束车站(End Station)最热门?
6)哪一趟行程最热门(即,哪一个起始站点与结束站点的组合最热门)?
7)每种用户类型有多少人?
8)每种性别有多少人?
9)出生年份最早的是哪一年、最晚的是哪一年,最常见的是哪一年?
2.查看数据,整理数据(此处省略)
3.分析数据,创建python脚本,实现交互式体验,并能逐步实现以上问题的输出:
在工作区左侧可看到三个城市的数据集,及创建的脚本bikeshare.py
而在脚本中需要定义以下几个函数,
get_filters():请用户指定要分析的城市、月份和日期
load_data(city, month, day):为指定的城市,按月和天加载适用的数据,相当于把输入的数据过滤为python中数据可接受的形式。
time_stats( ):显示旅行最频繁次数的统计数据,包括最受欢迎的月分,一周中的天数,小时等
station_stats( ):显示最受欢迎的车站和旅行的统计数据。
trip_duration_stats():显示总行程和平均行程持续时间的统计数据。
user_stats():显示关于自行车用户的统计信息。
main():给出是否需要重新进行的程序。
4.运行脚本,以下为运行python脚本后,自动弹出需要输入的信息
输入相应的信息后,得到相应的描述性统计信息,比如最频繁的车站,月份,时段(小时),用户信息等
5.得出结论
对于芝加哥,
需求时间信息:
使用共享自行车最频繁的月份6月,一周中周二使用率最高,一天中下午17:00对共享自行车的需求最大;
需求地点信息:
需求最大的开始车站为:Streeter Dr & Grand Ave,最终车站为:Streeter Dr
& Grand Ave,最频繁的车程是:Streeter Dr & Grand Ave->Lake Shore Dr & Monroe St;
用户信息:
已注册的用户是非注册用户的4倍,已注册用户的使用率更高,
男性比女性的使用率更高,男性差不多是女性的3倍
最常用的用户出生在1989年
网友评论