爬虫课堂(二十五)|使用CrawlSpider、LinkExtr

作者: 小怪聊职场 | 来源:发表于2018-04-01 19:56 被阅读679次

    爬虫课堂(二十二)|使用LinkExtractor提取链接中讲解了LinkExtractor的使用,本章节来讲解使用CrawlSpider+LinkExtractor+Rule进行全站爬取。
    一、CrawlSpider介绍
    Scrapy框架中分两类爬虫,Spider类和CrawlSpider类。Spider类的使用已经讲解了很多,但是如果想爬取某个网站的全站信息的话,CrawlSpider类是个非常不错的选择。CrawlSpider继承于Spider类,CrawlSpider是爬取那些具有一定规则网站的常用爬虫,可以说它是为全站爬取而生。
    它除了继承过来的属性(name、allow_domains)外,还提供了新的属性和方法:
    1.1、LinkExtractors
    class scrapy.linkextractors.LinkExtractor
    Link Extractors 的目的很简单:提取链接。每个Link Extractor有唯一的公共方法是 extract_links(),它接收一个 Response 对象,并返回一个 scrapy.link.Link 对象。
    Link Extractors要实例化一次,并且 extract_links()方法会根据不同的 Response 调用多次提取链接。
    主要参数如下:

    • allow:满足括号中“正则表达式”的值会被提取,如果为空,则全部匹配。
    • deny:与这个正则表达式(或正则表达式列表)不匹配的URL一定不提取。
    • allow_domains:会被提取的链接的domains。
    • deny_domains:一定不会被提取链接的domains。
    • restrict_xpaths:使用XPath表达式,和allow共同作用过滤链接。

    关于Link Extractors如何使用可以参考爬虫课堂(二十二)|使用LinkExtractor提取链接这篇文章。
    1.2、rules
    在rules中包含一个或多个Rule对象,每个Rule对爬取网站的动作定义了特定操作。如果多个Rule匹配了相同的链接,则根据规则在本集合中被定义的顺序,第一个会被使用。
    Rule类的定义如下:

    class scrapy.contrib.spiders.
    Rule
    (link_extractor,callback=None,cb_kwargs=None,follow=None,process_links=None,process_request=None)
    

    主要参数如下:

    • link_extractor:是一个Link Extractor对象。其定义了如何从爬取到的页面提取链接。
    • callback:是一个callable或string(该Spider中同名的函数将会被调用)。从link_extractor中每获取到链接时将会调用该函数。该回调函数接收一个response作为其第一个参数,并返回一个包含Item以及Request对象(或者这两者的子类)的列表。
    • cb_kwargs:包含传递给回调函数的参数(keyword argument)的字典。
    • follow:是一个boolean值,指定了根据该规则从response提取的链接是否需要跟进。如果callback为None,follow默认设置True,否则默认False。
    • process_links:是一个callable或string(该Spider中同名的函数将会被调用)。从link_extrator中获取到链接列表时将会调用该函数。该方法主要是用来过滤。
    • process_request:是一个callable或string(该spider中同名的函数都将会被调用)。该规则提取到的每个request时都会调用该函数。该函数必须返回一个request或者None。用来过滤request。

    二、CrawlSpider使用
    假设我们要爬取简书的所有用户的信息(用户名称、关注数、粉丝数、文章数、字数、收获喜欢数),如下图25-1所示的用户主页:

    图25-1

    用户的主页地址为https://www.jianshu.com/u/c34455009dd8
    2.1、定义Item文件

    from scrapy.item import Item, Field
    
    # 简书的全站用户信息
    class JianshuUserItem(Item):
        # 用户名称
        name = Field()
        # 关注数
        followNumber = Field()
        # 粉丝数
        fansNumber = Field()
        # 文章数
        articleNumber = Field()
        # 字数
        wordCount = Field()
        # 收获喜欢数
        likeNumber = Field()
    

    2.2、定义pipeline文件

    import json
    # 设置字符集,防止编码参数出错
    import sys
    reload(sys)
    sys.setdefaultencoding("utf-8")
    from scrapy.exporters import JsonItemExporter
    
    class DataSubmitJsonFilePipeline(object):
        def __init__(self):
            self.file = open('jianshu.json', 'wb')
    
        # 把item写入JSON文件
        def process_item(self, item, spider):
            line = json.dumps(dict(item)) + "\n"
            self.file.write(line)
            return item
    
        def close_spider(self, spider):
            self.file.close()
    

    2.3、定义setting文件

    ITEM_PIPELINES = {
        'tutorial.pipelines.DataSubmitJsonFilePipeline': 1,
    }
    

    2.4、编写spider文件
    首先需要找出用户个人主页链接的通用字符,从https://www.jianshu.com/u/c34455009dd8及更多的其他用户个人主页URL分析得知通用字符为/u/

    # response中提取链接的匹配规则,得出符合条件的链接
    pattern = '.*/u/*.'
    pagelink = LinkExtractor(allow=pattern)
    

    分析个人主页的HTML代码,得知用户的用户名称、关注数、粉丝数、文章数、字数、收获喜欢数等字段都是在//div[@class='main-top']中,如下图25-2所示:

    图25-2
    进一步分析HTML,如下图25-3所示:
    图25-3

    编写提取用户名称、关注数、粉丝数、文章数、字数、收获喜欢数等值的代码如下:

    # 用户名称
    item['name'] = each.xpath("./div[@class='title']/a/text()").extract()[0]
    # 关注数
    item['followNumber'] = each.xpath("./div[@class='info']/ul/li[1]//a/p/text()").extract()[0]
    # 粉丝数
    item['fansNumber'] = each.xpath("./div[@class='info']/ul/li[2]//a/p/text()").extract()[0]
    # 文章数
    item['articleNumber'] = each.xpath("./div[@class='info']/ul/li[3]//a/p/text()").extract()[0]
    # 字数
    item['wordCount'] = each.xpath("./div[@class='info']/ul/li[4]//p/text()").extract()[0]
    # 收获喜欢数
    item['likeNumber'] = each.xpath("./div[@class='info']/ul/li[5]//p/text()").extract()[0]
    

    最后完整代码如下:

    #!/usr/bin/env python
    # -*- coding: UTF-8 -*-
    
    # **********************************************************
    # * Author        : huangtao
    # * Email         : huangtao@yimian.me
    # * Create time   : 2018/4/1 下午6:34
    # * Last modified : 2018/4/1 下午6:34
    # * Filename      : jianshu_spider_crawl.py
    # * Description   : 
    # **********************************************************
    
    # 导入链接匹配规则类,用来提取符合规则的链接
    from scrapy.linkextractors import LinkExtractor
    from scrapy.spiders import CrawlSpider, Rule
    from tutorial.items import JianshuUserItem
    
    class JianshuCrawl(CrawlSpider):
        name = "jianshu_spider_crawl"
        # 可选,加上会有一个爬取的范围
        allowed_domains = ["jianshu.com"]
        start_urls = ['https://www.jianshu.com/']
    
        # response中提取链接的匹配规则,得出符合条件的链接
        pattern = '.*jianshu.com/u/*.'
        pagelink = LinkExtractor(allow=pattern)
    
        # 可以写多个rule规则
        rules = [
            # 只要符合匹配规则,在rule中都会发送请求,同时调用回调函数处理响应。
            # rule就是批量处理请求。
            Rule(pagelink, callback='parse_item', follow=True),
        ]
    
        # 不能写parse方法,因为源码中已经有了,会覆盖导致程序不能跑
        def parse_item(self, response):
            for each in response.xpath("//div[@class='main-top']"):
                item = JianshuUserItem()
                # 用户名称
                item['name'] = each.xpath("./div[@class='title']/a/text()").extract()[0]
                # 关注数
                item['followNumber'] = each.xpath("./div[@class='info']/ul/li[1]//a/p/text()").extract()[0]
                # 粉丝数
                item['fansNumber'] = each.xpath("./div[@class='info']/ul/li[2]//a/p/text()").extract()[0]
                # 文章数
                item['articleNumber'] = each.xpath("./div[@class='info']/ul/li[3]//a/p/text()").extract()[0]
                # 字数
                item['wordCount'] = each.xpath("./div[@class='info']/ul/li[4]//p/text()").extract()[0]
                # 收获喜欢数
                item['likeNumber'] = each.xpath("./div[@class='info']/ul/li[5]//p/text()").extract()[0]
    
                # 把数据交给管道文件
                yield item
    

    相关文章

      网友评论

      • 40ae9300255e:楼主你好,有个问题请教(关于正则匹配):

        要抓取的网址类似是这样的:
        https://www.jianshu.com/u/c34455009dd8
        https://www.jianshu.com/u/573f7ea53c2e
        https://www.jianshu.com/u/2f963d33b2f9
        https://www.jianshu.com/u/9f5cd46d1d2b

        把pattern = '.*/u/*.' 改为:pattern = '.*/u/.*' 抓取的结果很少,原因何在?
        例如:

        import re

        string = "https://www.jianshu.com/u/c34455009dd8";;
        pattern = '.*jianshu.com/u/.*'
        match_obj = re.match(pattern,string)
        if match_obj:
        print("是否匹配显示在下一行: ")
        print(match_obj.group(0))
        输出的结果为:
        是否匹配显示在下一行:
        https://www.jianshu.com/u/c34455009dd8

        如果这么写:pattern = '.*jianshu.com/u/*.'
        输出为:
        是否匹配显示在下一行:
        https://www.jianshu.com/u/c #与我们要匹配的网址相差不少,在scrapy里却反而能匹配,求解...
        七月宋:@40ae9300255e 我的理解是pattern = '.*jianshu.com/u/*.' 这处的 jianshu.com/u/ 这个字符串可以匹配任意次。 pattern = '.*jianshu.com/u/.*' 这处是指 jianshu.com/u/ 这个字符串必须匹配到 后面的 .* 则是任意字符串都可以,但只能匹配到一个字符 。 正则用的少, 你试试。 共同学习
        40ae9300255e:@七月宋 谢谢您的帮助,我明白了
        把作者的: pattern = '.*jianshu.com/u/*.' #前面的表达式重复任意次,故可以一直抓取
        #这个表达式实际上是一个循环,我这么理解,不知道对否???

        改为: pattern = '.*jianshu.com/u/.*' #只能抓抓取本页所有用户的链接
        七月宋:.是另一个元字符,匹配除了换行符以外的任意字符。*同样是元字符,不过它代表的不是字符,也不是位置,而是数量——它指定*前边的内容可以连续重复使用任意次以使整个表达式得到匹配。
      • 小怪聊职场:我看网上讲解CrawlSpider的内容比较少,要不要通过源码对CrawlSpider进一步往深再讲解下?同时包括LinkExtractor和Rule
        小怪聊职场:@Llvbq 好,今晚更新
        Ecjtu_lei:求更新
        小怪聊职场:@小怪聊职场 需要的话在这条评论点赞

      本文标题:爬虫课堂(二十五)|使用CrawlSpider、LinkExtr

      本文链接:https://www.haomeiwen.com/subject/qpracftx.html