【实战演练】Python爬虫，使用2.3 Scrapy 框架爬

作者: 1a076099f916 | 来源:发表于2019-01-22 14:26 被阅读1次

Scrapy框架的简单使用：

网络爬虫，是在网上进行数据抓取的程序，使用它能够抓取特定网页的HTML数据。虽然我们利用一些库开发一个爬虫程序，但是使用框架可以大大提高效率，缩短开发时间。Scrapy使用Python编写，轻量级的，简单轻巧，并且使用起来非常的方便。使用Scrapy可以很方便的完成网上数据的采集工作，它为我们完成了大量的工作，而不需要自己费大力气去开发。

image

下面我们来通过一个很简单的例子来介绍Scrapy框架的使用

进群：700341555获取Python爬虫学习资料！

我们要爬的网址是：搜读网： http://www.sodu.cc

我喜欢在这个网站看小说，里面的小说内容还是比较丰富的，推荐读者喜欢看小说的可以来看看。

因为只是简单介绍，所以我只准备抓取小说的标题。

好的，基本流程既然确定了，那接下来就一步一步的完成就可以了。

步骤一：创建一个工程和Spider模板

我们先用命令行创建一个Scrapy工程：

$ scrapy startproject soudu

接着，我们进入到工程目录：

$ cd soudu

我们来看一下目录结构：

tree# OUT:.├── soudu                  #外层目录│   ├── __init__.py         #初始化脚本    │   ├── __pycache__         #Python缓存文件。暂时无视│   ├── items.py            #Items代码模板，继承类自scrapy.Item│   ├── middlewares.py      #Middlewares代码模板(继承类)│   ├── pipelines.py        #Pipelines代码模板(继承类)│   ├── settings.py         #Scrapy爬虫的配置文件│   └── spiders             #Spiders代码模板目录 我们写爬虫的地方│       ├── __init__.py│       └── __pycache__└── scrapy.cfg              #部署爬虫的配置文件

4 directories, 7 files
最后，我们用命令行创建第一个Spider：

$ scrapy genspider title www.sodu.cc

这样我们就创建了一个名为title的爬虫了。

我们来看看他长什么样，打开/spiders/title.py:

# -*- coding: utf-8 -*-import scrapyclass NewsSpider(scrapy.Spider):    name = 'title'    allowed_domains = ['www.sodu.cc']    start_urls = ['http://www.sodu.cc/']    def parse(self, response):        pass

可以看到，Scrapy已经帮我们把爬虫的框架写好了，我们只要在这个框架的基础上进行进一步的定制就可以了。

步骤二：编写Spider 我们来着手定制我们的爬虫吧：

看一下详细的注释

# -*- coding: utf-8 -*-import scrapy# 将我们需要爬的项目引入进来from soudu.items import SouduItemclass DemoSpider(scrapy.Spider):    #该爬虫的名字    name = "title"    #规定爬虫爬取网页的域名       allowed_domains = ['www.sodu.cc']    #开始爬取的url链接    start_urls = ['http://www.sodu.cc/']    def parse(self, response):        '''        parse()函数接收Response参数，就是网页爬取后返回的数据        用于处理响应，他负责解析爬取的内容        生成解析结果的字典，并返回新的需要爬取的请求        '''        #由于是demo 我们不做完全的功能，        #只要求爬取出第一部小说的名字        #xpath规则可以通过查看网页源文件得出，chrome右键检查定位到所要爬取的内容        name = response.xpath('//a[@onclick="getpage(this)"]/text()').extract()[0]        #建立一个items字典，用于保存我们爬到的结果，并返回给pipline处理        items = {}        items['第一部小说名']= name        return items

步骤三：编写Item Pipeline 首先我们编写itmes.py来定义这个爬虫框架需要爬哪些内容：

# -*- coding: utf-8 -*-# Define here the models for your scraped items## See documentation in:# https://doc.scrapy.org/en/latest/topics/items.htmlimport scrapyclass SouduItem(scrapy.Item):    # define the fields for your item here like:    # name = scrapy.Field()    name = scrapy.Field()

接着我们编写 piplines.py来处理spider爬到的内容：

# -*- coding: utf-8 -*-# Define your item pipelines here## Don't forget to add your pipeline to the ITEM_PIPELINES setting# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.htmlclass ZimukuPipeline(object):    def process_item(self, item, spider):        # 因为是最简单的，所以我们把爬到的结果打印一下        print(item)        return item

步骤四：优化配置Settings.py

# -*- coding: utf-8 -*-# Scrapy settings for soudu project## For simplicity, this file contains only settings considered important or# commonly used. You can find more settings consulting the documentation:##     https://doc.scrapy.org/en/latest/topics/settings.html#     https://doc.scrapy.org/en/latest/topics/downloader-middleware.html#     https://doc.scrapy.org/en/latest/topics/spider-middleware.htmlBOT_NAME = 'soudu'SPIDER_MODULES = ['soudu.spiders']NEWSPIDER_MODULE = 'soudu.spiders'# Crawl responsibly by identifying yourself (and your website) on the user-agent#USER_AGENT = 'soudu (+http://www.yourdomain.com)'# Obey robots.txt rulesROBOTSTXT_OBEY = True#只增加了这一行，通过配置告诉Scrapy明白是谁来处理结果ITEM_PIPELINES = {   'soudu.pipelines.SouduPipeline': 300,}

好了，这样一个爬虫就算完成了，那怎么获取爬到的结果呢？？？

首先我们通过命令来执行爬虫：

$ scrapy crawl title

让我们这个最最简单的爬虫跑起来。

来看一下结果：

我只截取部分我们需要的内容，其他的我且暂不写出了：

2018-08-03 19:31:53 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.sodu.cc/>{'第一部小说名': '圣墟'}

是不是可以看到我们需要找到的内容了？？？？

Scrapy框架的基本使用已经说完了，以后我会一步一步来讲解其他的例子！

网友评论

本文标题：【实战演练】Python爬虫，使用2.3 Scrapy 框架爬

本文链接：https://www.haomeiwen.com/subject/ivbljqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

【实战演练】Python爬虫，使用2.3 Scrapy 框架爬

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Python学习

大数据爬虫Python AI Sql

【实战演练】Python爬虫 ，使用2.3 Scrapy 框架爬

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Python学习

大数据 爬虫Python AI Sql

【实战演练】Python爬虫，使用2.3 Scrapy 框架爬

大数据爬虫Python AI Sql