数据的收集和整理,会占用数据分析大部分的时间。
——沃兹基硕德
之前的爬虫获得深圳小区信息4785条,与链家一致,骄傲!
![](https://img.haomeiwen.com/i4874875/573a16566c33a665.png)
数据量不多,但还是选择用mongodb练手。
工具:jupyter notebook,mongodb,highchart
准备工作
新手上路,数据是要被随便造的,安全起见,先复制一份原始数据。
进入mongo shell 复制数据
![](https://img.haomeiwen.com/i4874875/01808e08b1f8391a.png)
把mongo目录加入环境变量
![](https://img.haomeiwen.com/i4874875/29c3df8a520fe6ff.png)
再执行mongo命令就没问题了
![](https://img.haomeiwen.com/i4874875/39de541430928e54.png)
show dbs 显示所有database
![](https://img.haomeiwen.com/i4874875/752df39b9f029391.png)
数据在lianjia中,
![](https://img.haomeiwen.com/i4874875/bf549a9d68190407.png)
show tables 显示所有collection,
![](https://img.haomeiwen.com/i4874875/de02a339c5de23aa.png)
需要复制sz_xiaoqu 数据,先新建一个collection,显示ok就新建成功了,
![](https://img.haomeiwen.com/i4874875/0343cf0b1955234d.png)
将sz_xiaoqu数据复制到新建的collection,显示复制4785条数据,复制成功。
![](https://img.haomeiwen.com/i4874875/ecf7672f3e8da701.png)
然后就可以开始可劲造了~
开始折腾
去除所有错误小区后,有效小区总数4775
所有小区房屋加总数2146156,大概就是深圳所有商品房总数量了。
各行政区小区分布
![](https://img.haomeiwen.com/i4874875/0f41e8b38ac53279.png)
![](https://img.haomeiwen.com/i4874875/2f20097511c3a037.png)
小区数量明显的关内三区领先。
各行政区房屋分布
![](https://img.haomeiwen.com/i4874875/3798370447efa6c3.png)
![](https://img.haomeiwen.com/i4874875/9fc18fa8088fde27.png)
没想到龙岗房子很多啊,小区也不多,那里的小区应该都很大~
小区房屋数平均值450
各行政区大于平均值的小区
![](https://img.haomeiwen.com/i4874875/47f1405603d94cca.png)
小区均价min 14275,max 230450
均价分布直方图
![](https://img.haomeiwen.com/i4874875/9ebd1952513f8cb6.png)
各行政区小区均价
![](https://img.haomeiwen.com/i4874875/8fa2406b4cf21432.png)
房价最高的还是大南山。
前1000均价大区-小区数量
![](https://img.haomeiwen.com/i4874875/33181baae892d3a3.png)
排名靠前的基本都是南山福田的。
片区均价前10位
![](https://img.haomeiwen.com/i4874875/5172783146b287f6.png)
深圳湾房价一路狂飙。
最后
小区信息好像没什么价值啊……唯一的好处就是对mongodb取数和highchart熟悉了很多。
明天开始看具体房源信息。
网友评论