美文网首页python爬虫
python+scrapy爬虫(爬取链家的二手房信息)

python+scrapy爬虫(爬取链家的二手房信息)

作者: 9ba4bd5525b9 | 来源:发表于2019-05-06 20:14 被阅读84次

    1、目的:通过爬取成都链家的二手房信息,主要包含小区名,小区周边环境,小区楼层以及价格等信息。并且把这些信息写入mysql。

    2、环境:scrapy1.5.1 +python3.6

    3、创建项目:创建scrapy项目,在项目路径执行命令:scrapy startproject LianJiaScrapy

    4、项目路径:(其中run.py新加的,run.py是在eclipse里面启动scrapy项目,方便调试的)

    这些文件分别是:

    scrapy.cfg:项目的配置文件 LianJiaScrapy:

    该项目的python模块。之后您将在此加入代码。

     LianJiaScrapy/items.py:项目中的item文件,设置对应的参数名,把抓取的数据存到对应的字段里面。(类似字典来存数据,然后可提供给后面的pipelines.py处理数据) LianJiaScrapy/pipelines.py:项目中的pipelines文件,抓取后的数据通过这个文件进行处理。(比如我把数据写到数据库里面就是在这里操作的) LianJiaScrapy/spiders/:放置spider代码的目录。(数据抓取的过程,并且把抓取的数据和items的数据一一对应)

     5、创建爬虫的主文件:cmd进入到主目录,

    输入命令:scrapy genspider lianjia_spider,

    查看spiders目录下,新建了一个lianjia_spider.py

    6、items.py编写:

    7、爬虫文件lianjia_spider.py编写

    8、数据处理文件pipelines.py的编写:

    9、要使用pipelines文件,需要在settings.py里面设置:

    11、运行爬虫项目: 这里可以直接在cmd里面输入命令:scrapy crawl Lianjia执行。 我在写脚本的时候,需要调试,所以新加了run.py,可以直接运行,也可以debug。 我的run.py文件:

    12、爬取的过程:

    13、爬取的结果:

    相关文章

      网友评论

        本文标题:python+scrapy爬虫(爬取链家的二手房信息)

        本文链接:https://www.haomeiwen.com/subject/qrnroqtx.html