美文网首页
链家北京二手房python scrapy框架爬取

链家北京二手房python scrapy框架爬取

作者: bitmote | 来源:发表于2017-12-11 00:09 被阅读0次

    爬取链家所有二手房信息,并存入python自带的sqlite3数据库中,借鉴他人程序进行编写

    目的:1、继续熟悉scrapy框架 2、数据数据库操作

    需求:爬取链家北京所有二手房信息,并存入sqlite3数据库中

    1、如何统计链家全部的二手房?

    链家的二手房搜索只能搜索前3000项,也就是100页,每页30套,而链家上显示北京在售的二手房信息共有27000套,所以只能设置选择条件使得每种条件搜索下房屋套数小于3000套共一百页。首先是考虑分区进行选取,除了海淀、朝阳区外其他区的在售二手房数量均小区三千,满足条件。对于海淀和朝阳超过3000套这种情况,可以再按照高中低楼层进行条件设置,这样使得按照楼层细分条件下的二手房套数也小于3000。

    如图所示各种条件下套数少于3000

    接下来就是scrapy的常规步骤了:

    a、创建scrapy工程   b、定义item   c、设置start_urls d、编写parse方法 解析所有网址 e、编写parse_item方法提取item  f、 编写item pipeline存储提到的item。现在一步步慢慢开始

    a)创建scrapy工程  只能在命令行界面下创建  scrapy startproject lianjia,而后 cd lianjia,执行scrapy genspider lianjiacrawler lianjia.com

    b)定义item 主要提取了房屋信息的十项内容 房屋编码、售房简介、小区、房屋信息(几居室、朝向、面积)、片区、关注数、带看数、总价、均价。

    c)设置start_urls start_urls列表是scrapy框架爬取网页的起始网址,因为我们选了多个区,所以其实网址是一个列表,较为特殊的是朝阳和海淀是按照楼层细分。举例如西城区的链家网址是https://bj.lianjia.com/ershoufang/xicheng/,而朝阳区再按楼层细分的话,链家网址就会在最后面加上lcx的后缀,x为[1,2,3,4,5]中的一个,举例朝阳区中楼层2904套,链家网址为https://bj.lianjia.com/ershoufang/chaoyang/lc2/,所以这里的start_urls设置如下所示

    d)编写parse方法

    此parse方法主要是为解析出每个start_urls起始地址里的后续地址,找出总共的页数,通过在chrome找到最大页数右键点击检查启动chrome开发工具,可直接定位到所在的elements

    接下来就是提出去最大页数,采用response.xpath('//div[@class="page-box house-lst-page-box"]/@page-data').extract()[0])['totalPage'],可以将总页数提取出来,接下来就是形成每一页的url然后yield给scrapy.Request函数

    e)提取item,编写parse_item方法,总的思路就是采用xpath找到信息,然后存储到lianjiaitem里,最后yield

    f)在pipeline中持久化存储

    我选择的是采用python自带的sqlite数据库,也可以采用文件存储方式,比如存储在excel中等等。

    首先就是创建数据库啊表啊,字段啊,根据item共创建10个字段,然后执行insert也没什么好说的了。

    总的就是这样,最后存储到数据库中28000套房屋。

    全部的代码在这里    https://github.com/bitmote/lianjia


    拿到数据还不是最终目的而只是手段,最终结果是通过对数据的淘洗得到一些有趣的信息。比如北京现售的最贵的房子是下面这个

    一亿元的房子,最便宜的房子,用数据库查询是15万,这么便宜?!当然不是了,是车库

    看来数据还是有一些杂质需要去伪存真。其实两万多套房屋数据,满可以分析出一些有价值的信息来的。

    相关文章

      网友评论

          本文标题:链家北京二手房python scrapy框架爬取

          本文链接:https://www.haomeiwen.com/subject/yqpqixtx.html