美文网首页
膨胀的我爬了一下链家

膨胀的我爬了一下链家

作者: 往木一兮 | 来源:发表于2019-12-26 15:35 被阅读0次

说明

别问为什么爬的是二手房,问就是买不起,嗯,是的,我连现在爬的二手房也一样买不起。

1.jpg

我们言归正传,我在连接上找一了一下二手房,挺多的,六万多套,就是不知道我的在哪。

2.png

听说今年房地产不景气,价格有所下降(一点点),所以我风平浪静的心也开始蠢蠢欲动,啊,春天来了吗!!!

爬虫需要知道几个关键信息,一个是分页,另一个是详情页,我们从链家的地址可以看出https://gz.lianjia.com/ershoufang/pg2/,pg2应该就是单词page2的缩写,赶紧翻到第三页,果不起然是pg3,分页有了我们来看看详情页,万能的F12,通过标题直接显示出详情页,连拼接都省了,链家真贴心。

3.png

再看看里面的详情页所有数据被安排的整整齐齐,真香。

4.png

竟然万事俱备,那我们就上吧,代码撸起来!!!

5.jpg

撸代码

爬虫框架用的是 webmagic 通过一个循环生成 pg 页,再把怕下来的数据落到MySQL数据库。
别问为啥用 webmagic ,问就是喜欢(简单)。

6.jpg

巴拉巴拉写好代码,代码不复杂,只要会xpath,撸遍天下都不怕,代码地址:

https://github.com/HWYWL/spring-boot-2.x-examples/tree/master/spring-boot-lianjia

我们来看看成果,我们来排序一下,从高到低,刺激。

7.png

红色框左边的是单价(万元/平米),右边的是总价(万元),看完这价格感觉血压有点高,手里的窝窝头突然不香了。

7.jpg

我们还是看看低价吧,惹不起.jpg

8.png

低价的就是很香了,除了偏僻一点、小一点。。。

总结一下

爬取的时候只能爬到一百页,如果再往下就是重复数据,此时你需要增加筛选条件,数据就会变得不一样,
可能就是为了防止我这种人去爬数据做限制。不过想想其实也正常,正常看房的谁真的能翻到一百页,
我羊城的房子看看就好,不要管几手的,反正我都买不起。

9.jpg

问题建议

相关文章

  • 膨胀的我爬了一下链家

    说明 别问为什么爬的是二手房,问就是买不起,嗯,是的,我连现在爬的二手房也一样买不起。 我们言归正传,我在连接上找...

  • Python爬虫实战之爬取链家广州房价_03存储

    问题引入 系列目录: Python爬虫实战之爬取链家广州房价_01简单的单页爬虫 Python爬虫实战之爬取链家广...

  • 爬取链家数据

    爬取的方法见 https://zhuanlan.zhihu.com/p/25240050 代码基本没改,根据杭州链...

  • python 爬取链家

    from bs4 import BeautifulSoup #导入bs4import requests #爬虫...

  • Python爬虫系列-Xpath自如和bs4链家

    爬完魔方之后,再接再厉爬取自如和链家,然后...不出意外的又失败了!在向右老师和羽恒大神的拯救下,终于把我从坑里挖...

  • 我膨胀了……

    辟谷回来,群友甩出这么一段话,说“原来群主才是土豪”: 真正有文化,有生意,有个几千万闲下来的人。是看不起弄堂里的...

  • 我“膨胀”了

    一日清晨,学校组织跑操比赛训练。原地踏步: 一二一 一二一,在响亮的口号声中, 我前面的同学小声对我说:“你向前...

  • 我膨胀了

    近日不知是否我的人品有所提升,总是能收到朋友们不遗余力的夸奖和褒扬,让我感觉晕乎乎、飘飘然,尾巴不自觉地翘了起来。...

  • 我膨胀了

  • 我膨胀了

    我膨胀了,本人滴酒未沾,此话当真。 可不咋的,将一个七斤六两的小肉团,一把屎一把尿成功培养为一名大学生,这份沉甸甸...

网友评论

      本文标题:膨胀的我爬了一下链家

      本文链接:https://www.haomeiwen.com/subject/ggxloctx.html