缘由
未来一年以内有可能会在悉尼买房,正好自己在学习数据相关内容。于是自然用爬虫爬取了domain.com.au上悉尼全境的所有房源信息,经过整理后进行了一些简单的分析。
本文数据是2018年1月26日的。
关于技术方面
简单说来有这么几条:
- 以树莓派3B作为爬虫宿主机器(节能,房东抱怨电费太高了)。
- 以scrapy做爬虫框架。
- 以mongodb作为数据库。
- 以pandas作为分析工具。
- 后续考虑用点人工智能和数据挖掘,以及对时间序列的分析。
以上1+2是个糟糕的组合。因为mongodb相当吃内存,爬取页面太多的情况下已经将树莓派的1G 内存撑爆了,导致scrapy爬虫运行缓慢。后续考虑换个内存大的机器。
基本数据
- domain.com.au上日均房源14284套
- 出价比例61.3%
-
房屋类型如下:
type_ratio.png
全境分析
![](https://img.haomeiwen.com/i2422069/870e65a1dc5d0fa4.png)
从上面这个热度图中可以发现,房源主要密集于3个大区
- Sydney核心区域(邮编2117以下)
- 以Parramatta为核心的西部地区(邮编2117-2165)
- 以Kogarah为核心的南部区域(邮编2165-2250)
其他区域房源分布相对稀疏,在后续分析中也可发现不同的地产梯队有显著的差异。
这里说明一点,亮的地方不是卖得好的地方,而是屯了很多房源的地方。
![](https://img.haomeiwen.com/i2422069/5a042e24c82ac08d.png)
链接https://kownse.github.io/sydneyhouse.html
上面这种让人眼花的图其实表达的是房屋总价和房源数量。具体说来:
- 颜色越红的部分总价越高
- 颜色越蓝的部分总价越低
- 颜色浅的部分价格适中
从这个图中可以看到中间区域是个混乱地区,蓝色红红色交杂。
以Parramatta为核心,向西延伸至Penrith,向南延伸至Campbeltown的“低价箭头”。仅仅东边不远处就是从悉尼开始向北扩散开的高价区。
难道中间就没有一个过渡地带吗?
其实是有的。
![](https://img.haomeiwen.com/i2422069/b6ddcd6e808ba358.png)
链接:https://kownse.github.io/sydneyhouse_bed.html
这张图和前一张图参数全部相同,唯一的区别是:表示颜色的是单位房间的价格。
在这幅图里可以恨明显地看出,东西之间的中部地区有一片浅色的过度区域。
此区域是单位房间价格有东部高价过度到西部低价的地带,也是房源集中的第2-3个区间。
这个地区如果放在国内,就是城镇化建设的前线,是传统平房和高端住宅的混沌之地。
当然,这边的平房换在国内应该叫别墅。
地产阶梯
一个方便又有趣的现象是,将所有房源按照邮编排序,然后按照百分比聚类,即可得到规则的分片区数据。
以下图片中的蓝色还是代表"便宜",红色还是代表"贵",但是都是在当前范围的相对而言。
第一片区
![](https://img.haomeiwen.com/i2422069/a56249dddf2ad83b.png)
第一片区即以悉尼为中心的“高价区”。其实悉尼中心的房价不是最高的,最高的是Ku-ring-gai Chase National Park东北角出海口的Palm Beach。那地方3面环海,风景宜人。房间单价128万,总价450万以上。
![](https://img.haomeiwen.com/i2422069/cac153c567562d1c.png)
第二片区
![](https://img.haomeiwen.com/i2422069/86b7a4b45c4b932e.png)
这一片区是以Parramatta为核心的总价便宜房间价贵的小户型聚集区。
第三片区
![](https://img.haomeiwen.com/i2422069/7bd4819b29419fad.png)
这一片区是Liverpool以及以南的区域。价格便宜,离市区中心还很近。
为什么离中心这么近的地方价格居然比北边便宜那么多呢?
因为这边中国人少,据说华人都扎堆在Chatswood和Hornsby,那一片就贵了。
第四片区
![](https://img.haomeiwen.com/i2422069/6c85b1f69826249c.png)
这其实就是郊县卫星城的区域了。
目测以后Penrith和Campbelltown会发展成新的据点。
阶梯之间的规律
将悉尼分为以上4个区域之后,就发现了一些很有规律的事情。
越偏远的地方标价比例越高
![](https://img.haomeiwen.com/i2422069/f3bb05810838ff91.png)
为啥老外卖房子不写价格呢?
这个我也不知道,可能是文化缘故。
但是我发现价格越高的地方标价的比例越低。在中心区域,标价比例只有47%左右。
而随着远离核心区域,标价比例稳步上升。到了第四片区,竟然有75%以上的标价率。
有价意味着更高的交易成功率。
这也说明核心区域的房子交易存在很大议价空间,口才好一点就是几十万,所以就不想标价。还有一个原因是,本来就是炒房的,还真不好说自己这把能赚多少。
而偏远地区交易冷淡,更多的人希望房子快点出手,所以标价更多。
越核心的地区拍卖比例越高
![](https://img.haomeiwen.com/i2422069/01e5d591d5ad583d.png)
首先得说下有价和拍卖的关系,如上图所示:
- 无标价的房屋拍卖比率远高于有标价的房屋![action.png](http://upload-
然后,第一片区的拍卖比例远高于其他片区。
action.png
高价区拍卖比例高,也说明了交易越火,花样越多。
房屋类型梯度变化
![](https://img.haomeiwen.com/i2422069/08c812036c015d2a.png)
如上图所示:
- 高价区公寓比例更高
- 低价区房屋和土地比例更高
- 无论在哪,联排别墅的数量都很稀少
这难道也是“城镇化”建设的结果吗?越核心的地方房子越小越精贵。
房屋类型和价格区间
![](https://img.haomeiwen.com/i2422069/980c32ffe6bae073.png)
上面3排小提琴图表示了3种主要房屋在4个片区里的价格区间变化。
从直观的角度说:
- 每一排右边的葫芦都比左边的宽!
这说明越偏远的地方价格越集中,越核心的地方价格越分散。
这肯定是市场规律。生意火的地方“花样就是多”!看来得找个影帝去谈价格了。
结论
悉尼这地方“城镇化”建设还没有完成,“乡bie下shu”和“城lao里fang”的房地产特征和价格差异巨大,还有很大发chao挥zuo空间。
我觉得有必要爬个几年,以后做个动画,看看这边是怎么演化的。
老家成都的就算了,房价都翻了几倍了,没有统yi计yin意义。
网友评论