自从拿到了房源信息,就开始着手分析了,然后就发现了有个数据取错了。。。

没办法,只能再来爬一次,可是链家的反爬虫恢复正常了。。。

接下来就是和反爬虫斗智斗勇的故事了。
- 之前构建的代理池上阵,结果发现代理也太不靠谱了,失败率超高,这要爬那么多数据,得到猴年马月,果断放弃。
- 尝试登陆后再爬,依然会出现反爬虫,再一次失败。
- 发现通过流量异常验证后的cookies能用一段时间,没办法的时候只能靠笨办法了。
具体就不多说了,大概就是:爬着-流量异常-发现跳转-selenium打开跳转链接-手动验证-获取验证后cookies-用这个cookies接着爬-等下一次流量异常。。。
终于数据能用了,搞起。
工具依然是python,mongodb,jupyter notebook,highcharts。
成交房源数量分布

龙岗福田遥遥领先。而后面的坪山、光明和大鹏。。。一定是绿中介还没有开到里去!
在售房源数量分布

龙岗再次第一位,超过关内3个区,让我没想到的是宝安房源居然这么少。
历年成交数量分布

链家2015年收购中联进入深圳市场,2014年以前的数据应该是之前中联的,而2010年这么多,就不清楚为什么了。
成交房源分布


龙岗福田2个区就占了深圳二手房买卖半壁江山啊。
历年成交价格分布

成交价格方差巨大,最高成交价已经到了15万一平。
每年房价中位数节节攀升,2017年成交单价中位数已超过5万一平。

成交房源面积分布

小户型依然是成交主力,80㎡以下户型成交比例逐年增长。谁让房价这么高呢。。。

成交房源数量分布

热点居然在1-2万,60-80平,我不禁在想这TM是什么时候的事情了。。。
在售房源数量分布

好吧,这个才是现实。

总结
- 数据一定要尽量准确,浪费多少时间只有自己知道。。。
- 查文档,不懂就查文档。
- 本来想着有了这些数据,能探索下房价洼地什么的,谁来告诉我怎么做。。。
网友评论