三. Scrapy项目调试

作者: 橄榄的世界 | 来源:发表于2018-03-05 12:37 被阅读0次

Scrapy基础（一）：安装和使用
三. Scrapy项目调试
2020-07-19--scrapy框架2
Python爬虫学习17-爬取知乎页面
PyCharm运行和调试Scrapy
scrapy 的调试技巧
(七)Scrapy框架(二) ？python+scrapy爬虫5
Terminal, PyCharm常用快捷键
Scrapy修改本地IP
python爬虫框架Scrapy

爬取网址：http://books.toscrape.com/index.html
爬取信息：书名，价格，评价等级，产品编码，库存量，评价数量
爬取方式：scrapy框架
存储方式：csv文件

image.png

1. 除了可以使用Chrome的开发者工具，还可以使用scrapy shell命令，在交互式环境下调试。

然后用fetch(http://books.toscrape.com/index.html)获取请求信息。

image.png

也可以采用下列带URL的命令：
scrapy shell http://books.toscrape.com/index.html
如果请求成功，可以看到：

image.png

2. 使用view(response)查看respone包含的页面：

view(response)

view函数是scrapy爬虫下载的页面，比直接打开浏览器下载的页面更靠谱，因为有时这两个页面是不同的，常规操作下有时还必须借助查看网页源代码来确认元素的位置。
-由于response包含的页面也是用浏览器打开，接下来我们使用chrome进行元素审查。

image.png

3.提取信息

1）由于我们需要获取的信息都在详细页面里面，我们需要先提取链接，可以使用LinkExtractor：
用三条语句就可以获取到链接信息了，而且使用LinkExtractor时不需要告诉链接的具体位置，只需要告诉链接所在的范围，非常方便。

image.png

此处提取信息，以下几条命令提取出来的信息是一样的，请看：
le = LinkExtractor(restrict_css='article.product_pod')
le = LinkExtractor(restrict_css='article.product_pod div a')
le = LinkExtractor(restrict_xpaths='//article[@class="product_pod"]')
le = LinkExtractor(restrict_xpaths='//article[@class="product_pod"]/div/a')

2)获取下一页的链接地址

3)提取书的详细信息
使用fetch()命令，然后用view(response)即可看到请求页面。

image.png

接下来获取书名，下述两种方法均可正确获取书名，xpath效率更高，由于div含有多个属性，此处使用了contains语法。

image.png

当然，由于书名，价格，评价等级以及库存量均在一处，可以先找出大范围，然后再确定具体信息：

image.png

其他信息在下面的范围内，代码如下（其中也包括库存数量，选一个即可）：

image.png

4)scrapy shell的退出：exit()

image.png

4.编码实现

1)创建项目

新建项目scrapy startproject books
利用模板生成spider文件scrapy genspider booksspider books.toscrape.com
image.png

上述生成的booksspider.py文件：

# -*- coding: utf-8 -*-
import scrapy


class BooksspiderSpider(scrapy.Spider):
    name = 'booksspider'
    allowed_domains = ['books.toscrape.com']
    start_urls = ['http://books.toscrape.com/']

    def parse(self, response):
        pass

2)items.py

import scrapy

class BooksItem(scrapy.Item):
    name = scrapy.Field()            #书名
    price = scrapy.Field()           #价格
    review_rating = scrapy.Field()   #评价等级（1-5星）
    review_num = scrapy.Field()      #评价数量
    upc = scrapy.Field()             #产品编码
    stock = scrapy.Field()           #库存量

3)booksspider.py

# -*- coding: utf-8 -*-
import scrapy
from books.items import BooksItem
from scrapy.linkextractors import LinkExtractor

class BooksspiderSpider(scrapy.Spider):
    name = 'booksspider'
    allowed_domains = ['books.toscrape.com']
    start_urls = ['http://books.toscrape.com/']

    def parse(self, response):
        ##提取每本书的链接
        le = LinkExtractor(restrict_xpaths='//article[@class="product_pod"]')  ##具体位置在//article/div/a的标签中
        detail_urls = le.extract_links(response)
        for detail_url in detail_urls:
            yield scrapy.Request(detail_url.url,callback=self.parse_book)  ##记得使用.url提取出extract_links里面的链接。

        ##提取下一页的链接
        le2 = LinkExtractor(restrict_xpaths='//li[@class="next"]')
        next_url = le2.extract_links(response)[0].url
        yield scrapy.Request(next_url,callback=self.parse)


    def parse_book(self,response):
        ##提取每本书的具体信息
        item = BooksItem()
        info = response.xpath('//div[contains(@class,"product_main")]')
        item['name'] = info.xpath('h1/text()').extract()[0]
        item['price'] = info.xpath('p/text()').extract()[0]
        item['review_rating'] = info.xpath('p[3]/@class').re('star-rating (\w+)')[0]

        info2 = response.xpath('//table[contains(@class,"table")]')
        item['upc'] = info2.xpath('//tr[1]/td/text()').extract_first()
        item['stock'] = info2.xpath('//tr[6]/td/text()').re_first('\d+')
        #item['stock'] = info2.xpath('//tr[last()-1]/td/text()').re_first('\d+')  #使用last()获取标签的最后一个数字
        item['review_num'] = info2.xpath('//tr[7]/td/text()').extract_first()
        #item['review_num'] = info2.xpath('//tr[last()]/td/text()').extract_first()
        yield item

运行scrapy crawl booksspider -o books.csv，结果为：

image.png

4)改进点
①指定各列的次序
在settings.py中加入以下代码：
FEED_EXPORT_FIELDS = ['name','upc','stock','price','review_rating','review_num']
②将评价等级中的One，Two，Three转变成1,2,3
在pipelines.py中加入以下代码：

class BooksPipeline(object):

    review_rating_map = {
        'One':1,
        'Two':2,
        'Three':3,
        'Four':4,
        'Five':5
    }
    
    def process_item(self, item, spider):
        # rating = item.get('review_rating')  #获取review_rating的数据
        rating = item['review_rating']  #与上面的语句等价
        item['review_rating'] = self.review_rating_map[rating]
        
        return item

在setttings.py中加入：

ITEM_PIPELINES = {
   'books.pipelines.BooksPipeline': 300,
}

结果为：

image.png

网友评论

精通scrapy网络爬虫

本文标题：三. Scrapy项目调试

本文链接：https://www.haomeiwen.com/subject/gwucfftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

三. Scrapy项目调试

1. 除了可以使用Chrome的开发者工具，还可以使用scrapy shell命令，在交互式环境下调试。

2. 使用view(response)查看respone包含的页面：

3.提取信息

4.编码实现

相关文章

Scrapy基础（一）：安装和使用