美文网首页
​北京的房价到底有多贵?我爬取了3万多条数据得出分析结果

​北京的房价到底有多贵?我爬取了3万多条数据得出分析结果

作者: 小笨鸟_1d2f | 来源:发表于2020-03-24 22:51 被阅读0次

    北京的高房价破灭了众多北漂朋友追梦的希望,大家都知道北京房价很高,但是到底有多高呢?我在链家爬取了北京市3万多条二手房信息,并进行了详细分析。

    ​第一步:模拟爬取数据

    链家的网站不是很复杂,是一个基础的静态网页,数据变换通过网页页码变换实现,各类信息都在嵌入在网页中

    首先我按照行政区划分,组成每个行政区第一页的url,主要为了在第一页下找到住房总套数,并根据其计算出总页数(每页30套房子),由于最多网站最多显示100页数据,所以大于100页时统一取100页。

    接着在该循环下,再构造每个行政区下的后续页数url,用bs4解析网页,爬取每套房子户型、面积、总价、单价、位置等信息

    最后,将数据保存在表格中

    没敢用多线程,程序总共跑了20分钟,爬下了35139条数据

    第二步:开始数据分析

    单纯的看表格看不出什么东西,下面我用pyecharts从不同的角度对房价信息进行分析

    1.画个各行政区域的平均单价柱状图

    房价最高的是西城区平均单价为112828元/平米,最低的是密云区平均单价为24570元/平米,总的均价为50673元/平米,排除远郊,要想在五环以内买房单价起码要4万以上。

    2.画出面积与总价的散点图

    最贵的一套房子位于苹果园,总面积840平米,总价7300万,看这情况应该是没有四合院在里面;

    第一视觉好像80%的房子总价都超过1000万,真实情况是仅有3000多套房子总价超过1000万,剩余30000多套都在1000万以下。

    3.画出户型与套数的饼状图

    由于户型种类太多了,总共有61种,所以我只取了数量较多的前十种,结果如图

    最多的是2室1厅,紧接着是3室1厅,看来是中小户型比较受欢迎。

    4.画出地段与价格的柱状图

    单价最高的位置是德胜门,总共有51套房源,均价为144980元/平米,其余9个位置均价都在120000元以上,貌似要么在二环内,要么在海淀,而我们南城1个也没有。

    小结:总的来说,不管从那个角度分析,北京的房价都太贵了,我还是老实接着搬砖挣钱吧。

    文中所使用的代码已经请在“python的爬虫与数据分析之路”里回复关键字:北京北京

    ps:微信群已经开通,想加入的朋友可以在公众号内获得群二维码,欢迎您的到来!

    往期精彩:

    海外疫情发展态势怎么样?python动态视频20秒告诉你

    基金抄底成功的概率有多大?python带你来分析

    python骚操作之电脑自动刷抖音

    用python画出某“毒王”的动态路线图

    相关文章

      网友评论

          本文标题:​北京的房价到底有多贵?我爬取了3万多条数据得出分析结果

          本文链接:https://www.haomeiwen.com/subject/rmkzyhtx.html