链家北京二手房python scrapy框架爬取

作者: bitmote | 来源:发表于2017-12-11 00:09 被阅读0次

链家北京二手房python scrapy框架爬取
Scrapy框架步骤
Scrapy--爬取链家网二手房信息
2021-07-21
[CP_14] Python爬虫框架01：Scrapy框架创建项
python爬虫框架Scrapy
spider整理
0.Python 爬虫之Scrapy入门实践指南（Scrapy基
【读书笔记】_爬虫
Python爬虫作业 | 爬取拉勾职位信息-Scrapy版

爬取链家所有二手房信息，并存入python自带的sqlite3数据库中，借鉴他人程序进行编写

目的：1、继续熟悉scrapy框架 2、数据数据库操作

需求：爬取链家北京所有二手房信息，并存入sqlite3数据库中

1、如何统计链家全部的二手房？

链家的二手房搜索只能搜索前3000项，也就是100页，每页30套，而链家上显示北京在售的二手房信息共有27000套，所以只能设置选择条件使得每种条件搜索下房屋套数小于3000套共一百页。首先是考虑分区进行选取，除了海淀、朝阳区外其他区的在售二手房数量均小区三千，满足条件。对于海淀和朝阳超过3000套这种情况，可以再按照高中低楼层进行条件设置，这样使得按照楼层细分条件下的二手房套数也小于3000。

如图所示各种条件下套数少于3000

接下来就是scrapy的常规步骤了：

a、创建scrapy工程 b、定义item c、设置start_urls d、编写parse方法解析所有网址 e、编写parse_item方法提取item f、编写item pipeline存储提到的item。现在一步步慢慢开始

a)创建scrapy工程只能在命令行界面下创建 scrapy startproject lianjia,而后 cd lianjia，执行scrapy genspider lianjiacrawler lianjia.com

b)定义item 主要提取了房屋信息的十项内容房屋编码、售房简介、小区、房屋信息（几居室、朝向、面积）、片区、关注数、带看数、总价、均价。

c）设置start_urls start_urls列表是scrapy框架爬取网页的起始网址，因为我们选了多个区，所以其实网址是一个列表，较为特殊的是朝阳和海淀是按照楼层细分。举例如西城区的链家网址是https://bj.lianjia.com/ershoufang/xicheng/，而朝阳区再按楼层细分的话，链家网址就会在最后面加上lcx的后缀，x为[1,2,3,4,5]中的一个，举例朝阳区中楼层2904套，链家网址为https://bj.lianjia.com/ershoufang/chaoyang/lc2/，所以这里的start_urls设置如下所示

d)编写parse方法

此parse方法主要是为解析出每个start_urls起始地址里的后续地址，找出总共的页数，通过在chrome找到最大页数右键点击检查启动chrome开发工具，可直接定位到所在的elements

接下来就是提出去最大页数，采用response.xpath('//div[@class="page-box house-lst-page-box"]/@page-data').extract()[0])['totalPage']，可以将总页数提取出来，接下来就是形成每一页的url然后yield给scrapy.Request函数

e）提取item，编写parse_item方法，总的思路就是采用xpath找到信息，然后存储到lianjiaitem里，最后yield

f）在pipeline中持久化存储

我选择的是采用python自带的sqlite数据库，也可以采用文件存储方式，比如存储在excel中等等。

首先就是创建数据库啊表啊，字段啊，根据item共创建10个字段，然后执行insert也没什么好说的了。

总的就是这样，最后存储到数据库中28000套房屋。

全部的代码在这里 https://github.com/bitmote/lianjia

拿到数据还不是最终目的而只是手段，最终结果是通过对数据的淘洗得到一些有趣的信息。比如北京现售的最贵的房子是下面这个