深圳链家房源分析

作者: 雷小厮 | 来源:发表于2017-06-09 17:07 被阅读0次

自从拿到了房源信息,就开始着手分析了,然后就发现了有个数据取错了。。。



没办法,只能再来爬一次,可是链家的反爬虫恢复正常了。。。



接下来就是和反爬虫斗智斗勇的故事了。
  • 之前构建的代理池上阵,结果发现代理也太不靠谱了,失败率超高,这要爬那么多数据,得到猴年马月,果断放弃。
  • 尝试登陆后再爬,依然会出现反爬虫,再一次失败。
  • 发现通过流量异常验证后的cookies能用一段时间,没办法的时候只能靠笨办法了。

具体就不多说了,大概就是:爬着-流量异常-发现跳转-selenium打开跳转链接-手动验证-获取验证后cookies-用这个cookies接着爬-等下一次流量异常。。。

终于数据能用了,搞起。

工具依然是python,mongodb,jupyter notebook,highcharts。

成交房源数量分布
成交房源数量分布

龙岗福田遥遥领先。而后面的坪山、光明和大鹏。。。一定是绿中介还没有开到里去!

在售房源数量分布
在售房源数量分布

龙岗再次第一位,超过关内3个区,让我没想到的是宝安房源居然这么少。

历年成交数量分布
历年成交数量分布

链家2015年收购中联进入深圳市场,2014年以前的数据应该是之前中联的,而2010年这么多,就不清楚为什么了。

成交房源分布
成交房源分布
成交房源分布

龙岗福田2个区就占了深圳二手房买卖半壁江山啊。

历年成交价格分布
历年成交价格分布

成交价格方差巨大,最高成交价已经到了15万一平。
每年房价中位数节节攀升,2017年成交单价中位数已超过5万一平。


成交房源面积分布
成交房源面积分布

小户型依然是成交主力,80㎡以下户型成交比例逐年增长。谁让房价这么高呢。。。


成交房源数量分布
成交房源数量分布

热点居然在1-2万,60-80平,我不禁在想这TM是什么时候的事情了。。。

在售房源数量分布
在售房源数量分布

好吧,这个才是现实。


总结

  • 数据一定要尽量准确,浪费多少时间只有自己知道。。。
  • 查文档,不懂就查文档。
  • 本来想着有了这些数据,能探索下房价洼地什么的,谁来告诉我怎么做。。。

相关文章

网友评论

    本文标题:深圳链家房源分析

    本文链接:https://www.haomeiwen.com/subject/vuvxqxtx.html