爱彼迎数据分析(纽约/2019)
一、分析背景与目的
背景:爱彼迎( Airbnb)成立于2008年8月,总部设在美国加州旧金山市,是一个旅行房屋租赁社区,用户可通过网络或手机应用程序发布、搜索度假房屋租赁信息并完成在线预定程序。据官网显示以及媒体报道,其社区平台在191个国家、65000个城市为旅行者们提供数以百万计的独特入住选择。
目的:
1. 探索哪些地区的房子更受欢迎;
2. 探索哪种房型最受欢迎;
3. 探索住宿价格与位置和房型的关系;
二、数据来源与分析工具
数据来源Kaggle:https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data
分析工具:Excel
三、数据探索
数据探索流程3.1数据探索:
原始数据大小:48576*16;
各列数据意义:
id: listing ID(清单id)
name: name of the listing(清单名)
host_id: host ID(房主id)
host_name: name of the host(房主名)
neighbourhood_group: location(位置)
neighbourhood: area(区域)
latitude: latitude coordinates(纬度)
longitude: longitude coordinates(经度)
room_type: listing space type(房屋类型)
price: price in dollars(价格)
minimum_nights: amount of nights minimum(最小住宿夜晚数)
number_of_reviews: number of reviews(浏览数)
last_review: latest review(最近浏览时间)
reviews_per_month: number of reviews per
month(每月浏览数)
calculated_host_listings_count: amount of
listing per host(每个房主的清单数)
availability_365: number of days when listing is available for booking(可供预定的天数)
3.2 数据处理:
a) 数据删除处理:
name和host_name列,本次数据分析中无影响,故而删除;
b) 重复值处理:
运用countif函数,根据清单id确认有无重复值——经确认,数据无重复;
重复值处理c) 缺失值处理:
缺失值有4种处理方法:人工手动补全,删除缺失数据,用平均值/中位数/众数代替,用统计模型计算出的值代替;此次对缺失数据直接进行删除。
判断:选中整列查看右下角计数,对比其它列,判断是否存在缺失值。
删除:定位缺失值-选中数据区域-开始选项卡-查找和选择-定为条件-空值-删除整行。
缺失复值处理d) 异常值处理
1. 针对每列查看数据是否异常,初步筛选方法为观察数据类型是否一致(如:房间类型中出现数值类型数据,为异常值,采取措施为删除);
异常值处理2. 价格列出现较大异常值,根据数据规律删除>3000的数据;
四、数据分析正文
4.1哪个地区房子最受欢迎
利用数据透视表分类汇总位置对住宿订单的影响,可视化。
地区租房占比 房屋经度分布 房屋纬度分布结果表明80%以上的住宿位于Manhattan(经-74.6/纬40.73)和Brooklyn地区,二者占比相当,均很受欢迎,其余地区入住相对很少。
4.2哪种房型更受欢迎
Entire home/apt.最受欢迎,其次是Private room, 二者占整体的98%,剩下极少部分为share room。
4.3住宿价格
Manhattan地区的住宿价格最贵,其次为Brooklyn,且Manhattan为Brooklyn价格的1.48倍,其余三个地区价格相当。
Entire home/apt.房型的价格最贵。
五、结论
1. 地区位置是影响房屋出租的重要因素,Manhattan和Brooklyn地区的租住数相对较多;
2. 在房屋类型中,Entire home/apt.是最受人们喜爱的;
3. 地区和房型对租房价格影响较大,粗略来看,Manhattan地区和Entire home/apt.房型的价格相对较贵。
网友评论