文|寻找不同的蜜蜂
购置新房,对于刚参加工作没几年的孩童来说,可谓压力山大。特别是,在北上广深,这种超级城市,买房简直天方夜谭。
前一阵,刮起了一阵逃离北上广的热潮,逃离的理由不必赘述,你我都懂。或许,在新一线城市发展,也是一个不错选择。毕竟留在这些城市发展,机会还是多很多。
但说实话,在新一线购置一套新房,似乎也不那么容易。有些人认为,新房买不起,购置二手房,也是不错选择。也有人认为,二手房比新房价格还贵。
那么,到底二手房的价格如何?
通过爬虫,爬取贝壳二手房网,选取新一线的14个城市为研究对象,分别是杭州、青岛、天津、南京、成都、重庆、长沙、武汉、郑州、沈阳、东莞、西安、苏州和无锡。
共记4万+二手房信息,其中,每一个城市约3000条二手房信息(贝壳网上限100页)。
1/ 信息的收集
爬虫,作为有效的信息收集途径之一,其灵活和实时性等特点,已被大家高度认可。互联网时代,掌握爬虫技能,是必不可少的技能之一。
python中,目前,有很多爬虫模块,比如:scrapy(更为高级结构化的框架),re,request, beautifulsoup等。
本文继续使用request+beautifulsoup模块,爬取数据,包括小区名字、区域、户型、面积、总价格以及每平米价格。
1)Request负责爬取html源代码至本地,需注意一点:解析前,查看html是否完全被下载下来。如果发现只爬下部分内容,可能存在反扒机制。
2)Beautifulsoup负责解析以上html,基于CSS选择器,提取关心的信息,必要时,需对数据进行处理(如:去空格、去换行和去除不必要的字符串等等)。
3)有时网络不是特别好,爬取过程中会出现中断,如果不设置监控点,都不知道爬到哪里。建议使用format()设置页面监控点。
爬取贝壳二手房4万条房屋信息,爬虫告诉你,新一线城市二手房均价排名2/ 信息过滤
爬下的信息中,多少有一些,无效信息。筛选有用的信息,变得极为关键。
通过对新一线城市,4万条的住房信息处理发现,各个城市各区的房屋信息条数分布,极不均匀,一些地区的二手房信息有几百条,甚至千条,但有些,却只有几条。
因此,以大于50条为过滤条件,统计并计算各城市各区的均值。
3/ 结果可视化
使用pyechart和excel对数据进行可视化,其中,地图可视化的代码如下:
对于数据data,可以手动输入,也可以导入CSV。然后,调整显示范围 [10000, 40000 ],很方便。其他参数,可以保持默认即可。
别忘记下载地图数据,命令行输入 pip install echarts-china-provinces-pypkg和 pip install echarts-china-cities-pypkg。
对于excel的使用,主要是在上千的数据当中,筛选出各城市各区对应的数据,并求均值,AVERAGEIF()函数,不要错过。
4/ 结果分析
通过对以上4万条房屋信息处理和分析,14个城市的二手房均价排名如下:
爬取贝壳二手房4万条房屋信息,爬虫告诉你,新一线城市二手房均价排名1)杭州, 39495元/平方米
2)南京, 33346元/平方米
3)青岛, 28368元/平方米
4)天津, 27722元/平方米
5)苏州, 23739元/平方米
6)东莞, 20801元/平方米
7)武汉, 20605元/平方米
8)成都, 17266元/平方米
9)西安, 16636元/平方米
10)郑州, 16057元/平方米
11)无锡, 15245元/平方米
12)重庆, 14769元/平方米
13)长沙, 11736元/平方米
14)沈阳, 11378元/平方米
新一线城市,二手房的均价在11000~40000元/平方米之间,差值高达30000元/平方米。可以明显得知,沿海地区的城市房价确实比中部城市高很多。
爬取贝壳二手房4万条房屋信息,爬虫告诉你,新一线城市二手房均价排名1.杭州
目前来说,杭州的二手房价格,在新一线城市排名第一。
杭州各区二手房均价/平方米分布,呈现不均匀态势,最低余杭均价近30000元/平方米左右,最高上城均价直逼50000元/平方米。杭州50%的区域,均价都已经超过40000元/平方米。
2.南京
南京各区二手房均价/平方米分布不均匀,最低浦口均价24000元/平方米,最高鼓楼46000元/平方米,差值一倍之多。
3.青岛
青岛各区二手房均价/平方米分布,也呈现不均匀态势。青岛30%的地区,均价突破30000元/平方米。
爬取贝壳二手房4万条房屋信息,爬虫告诉你,新一线城市二手房均价排名4.天津
天津各区二手房均价/平方米分布,也呈现不均匀态势。可以明显看出,和平的均价已经突破50000元/平方米,比最低的武清高出3倍之多。天津75%的地区,均价低于30000元/平方米。
爬取贝壳二手房4万条房屋信息,爬虫告诉你,新一线城市二手房均价排名5.苏州
苏州各区二手房均价/平方米分布,也呈现不均匀态势。除工业园区超出30000元/平方米,其他地区均价在19000~25000元/平方米。
爬取贝壳二手房4万条房屋信息,爬虫告诉你,新一线城市二手房均价排名6.东莞
东莞各区二手房均价/平方米分布,也呈现不均匀态势。最低均价大于15000元/平方米,最高的松山湖直逼30000元/平方米。
爬取贝壳二手房4万条房屋信息,爬虫告诉你,新一线城市二手房均价排名7.武汉
武汉各区的二手房均价分布极不均匀。均价超过20000元/平方米的区有6个,占比60%。特别是,武昌均价已经高达26000+元/平方米,比最低的黄陂多一倍。
8.成都
成都各区二手房均价/平方米分布,也呈现不均匀态势。4个区均值低于15000/平方米,4个区均值介于15000~20000/平方米,4个区大于20000元/平方米。
9.西安
西安各区二手房均价/平方米分布较为持平,14000~17000/平方米左右,除雁塔突破20000元/平方米。
10.郑州
郑州各区二手房均价/平方米分布,也呈现不均匀态势。除郑州新区24000/平方米左右,其他地区均价在10000~17000/平方米左右。
11.无锡
无锡各区二手房均价/平方米分布,也呈现不均匀态势。但均价均低于20000元/平方米。滨湖与惠山差价5000元/平方米。
12.重庆
重庆各区二手房均价/平方米分布,也呈现不均匀态势。在14个新一线城市中,江津7400元/平方米,应该是目前价格最低的地区了。
爬取贝壳二手房4万条房屋信息,爬虫告诉你,新一线城市二手房均价排名13.长沙
长沙各区二手房均价/平方米分布,呈现均匀态势,各区均价低于13000元/平方米。
爬取贝壳二手房4万条房屋信息,爬虫告诉你,新一线城市二手房均价排名14.沈阳
沈阳各区二手房均价/平方米分布,也呈现不均匀态势。最高和最低差价在8000元/平方米。
爬取贝壳二手房4万条房屋信息,爬虫告诉你,新一线城市二手房均价排名你在上述14个城市的哪一个城市,拼搏奋斗呢?
希望,对购置二手房的你,可以提供一些科学的参考。
(以上数据,均爬取各城市对应最大页数(100页)。4万的数据量,可能不够全面,结果仅供参考。)
相关文章:
1/ 学习python 115小时后,告诉想学爬虫的你,别怕,爬虫,没那么难抓!
2/ 爬取60000个岗位,爬虫告诉想要找或换工作的你,城市和行业,该怎么选?
网友评论
any comments?