1、目的:通过爬取成都链家的二手房信息,主要包含小区名,小区周边环境,小区楼层以及价格等信息。并且把这些信息写入mysql。
2、环境:scrapy1.5.1 +python3.6
3、创建项目:创建scrapy项目,在项目路径执行命令:scrapy startproject LianJiaScrapy
4、项目路径:(其中run.py新加的,run.py是在eclipse里面启动scrapy项目,方便调试的)
这些文件分别是:
scrapy.cfg:项目的配置文件 LianJiaScrapy:
该项目的python模块。之后您将在此加入代码。
LianJiaScrapy/items.py:项目中的item文件,设置对应的参数名,把抓取的数据存到对应的字段里面。(类似字典来存数据,然后可提供给后面的pipelines.py处理数据) LianJiaScrapy/pipelines.py:项目中的pipelines文件,抓取后的数据通过这个文件进行处理。(比如我把数据写到数据库里面就是在这里操作的) LianJiaScrapy/spiders/:放置spider代码的目录。(数据抓取的过程,并且把抓取的数据和items的数据一一对应)
5、创建爬虫的主文件:cmd进入到主目录,
输入命令:scrapy genspider lianjia_spider,
查看spiders目录下,新建了一个lianjia_spider.py
6、items.py编写:
7、爬虫文件lianjia_spider.py编写
8、数据处理文件pipelines.py的编写:
9、要使用pipelines文件,需要在settings.py里面设置:
11、运行爬虫项目: 这里可以直接在cmd里面输入命令:scrapy crawl Lianjia执行。 我在写脚本的时候,需要调试,所以新加了run.py,可以直接运行,也可以debug。 我的run.py文件:
12、爬取的过程:
13、爬取的结果:
网友评论