最近在学习scrapy框架,尝试写了几个简单的项目试试水,下面分享一个简单的链家网二手房信息爬取
一、项目所需环境
版本-python3
工具-xpath
环境-centos(scrapy环境)
编辑器-pycharm
二、目标网站
![](https://img.haomeiwen.com/i8380182/28fa10bb1146c1c1.png)
通过F12分析网页信息,使用xpath提取关键信息,逐项分析提取
![](https://img.haomeiwen.com/i8380182/d97ca39ce67f2461.png)
由于链家网进行了分页,所以需要分析下页的入口url,经过分析链家的分页链接有规律可循,
![](https://img.haomeiwen.com/i8380182/a36a78d8d56adeb3.png)
图片所示对应第二页,既然有规律可循,那么进行分页跳转就变得相当简单了
![](https://img.haomeiwen.com/i8380182/46de574e8454ab72.png)
这样就能顺利爬取到链家网所有的二手房信息
![](https://img.haomeiwen.com/i8380182/59545889ff7e49cf.png)
主要代码如下:
![](https://img.haomeiwen.com/i8380182/7acf6ce873769b83.png)
网友评论