python+scrapy爬虫（爬取链家的二手房信息）

作者: 9ba4bd5525b9 | 来源:发表于2019-05-06 20:14 被阅读84次

1、目的：通过爬取成都链家的二手房信息，主要包含小区名，小区周边环境，小区楼层以及价格等信息。并且把这些信息写入mysql。

2、环境：scrapy1.5.1 +python3.6

3、创建项目：创建scrapy项目，在项目路径执行命令：scrapy startproject LianJiaScrapy

4、项目路径：（其中run.py新加的，run.py是在eclipse里面启动scrapy项目，方便调试的）

这些文件分别是：

scrapy.cfg:项目的配置文件 LianJiaScrapy:

该项目的python模块。之后您将在此加入代码。

LianJiaScrapy/items.py:项目中的item文件，设置对应的参数名，把抓取的数据存到对应的字段里面。（类似字典来存数据，然后可提供给后面的pipelines.py处理数据） LianJiaScrapy/pipelines.py:项目中的pipelines文件,抓取后的数据通过这个文件进行处理。（比如我把数据写到数据库里面就是在这里操作的） LianJiaScrapy/spiders/：放置spider代码的目录。（数据抓取的过程，并且把抓取的数据和items的数据一一对应）

5、创建爬虫的主文件：cmd进入到主目录，

输入命令：scrapy genspider lianjia_spider，

查看spiders目录下，新建了一个lianjia_spider.py

6、items.py编写：

7、爬虫文件lianjia_spider.py编写

8、数据处理文件pipelines.py的编写：

9、要使用pipelines文件，需要在settings.py里面设置：

11、运行爬虫项目：这里可以直接在cmd里面输入命令：scrapy crawl Lianjia执行。我在写脚本的时候，需要调试，所以新加了run.py,可以直接运行，也可以debug。我的run.py文件：

12、爬取的过程：

13、爬取的结果：

网友评论

python爬虫

本文标题：python+scrapy爬虫（爬取链家的二手房信息）

本文链接：https://www.haomeiwen.com/subject/qrnroqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

python+scrapy爬虫（爬取链家的二手房信息）

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

python爬虫