美文网首页scrapy爬虫案例
小爬虫实践项目-爬取伯乐在线全部文章信息

小爬虫实践项目-爬取伯乐在线全部文章信息

作者: 鬼马压刀 | 来源:发表于2018-07-10 11:07 被阅读0次

    新建项目article

    mkvirtualenv py3scrapy
    

    安装scrapy

    pip install -i https://pypi.douban.com/simple scrapy
    

    新建scrapy工程Article

    (article) F:\DjangoExcise>scrapy startproject ArticleNew Scrapy project 'Article', using template directory 'f:\\envs\\article\\lib\\site-packages\\scrapy\\templates\\project', created in:
        F:\DjangoExcise\Article
    
    You can start your first spider with:
        cd Article
        scrapy genspider example example.com
    # 使用模板创建爬虫,模板可以自定义,但是我们暂时先用默认模板
    

    使用模板创建爬虫

    (article) F:\DjangoExcise>cd article # 先进入工程目录
    
    (article) F:\DjangoExcise\Article>scrapy genspider jobbole blog.jobbole.com
    # jobbole  为文件名称  
    # blog.jobbole.com 为需要爬取的网站页
    Created spider 'jobbole' using template 'basic' in module:
      Article.spiders.jobbole
    

    启动scrapy

    (article) F:\DjangoExcise\Article>scrapy crawl jobbole
    

    Windows下可能会报错,提示缺少‘win32api’

    (article) F:\DjangoExcise\Article>pip install -i https://pypi.douban.com
    /simple pypiwin32
    

    安装完成后再次启动即可
    因为我们的开发工具使用Pycharm,但是Pycharm不支持调试scrapy,需
    要自定义配置一个调试文件,方便我们实时进行调试
    Article主目录下新建py文件main

    from scrapy.cmdline import execute
    import sys
    import os
    sys.path.append(os.path.dirname(os.path.abspath(__file__)))
    # os.path.abspath(__file__) 获取当前文件路径(main.py)
    # os.path.dirname() 获取当前文件的父路径
    execute(['scrapy', 'crawl', 'jobbole'])
    # execute 传入的是一个列表
    

    修改setting文件的ROBOTSTXT_OBEY值

    ROBOTSTXT_OBEY = False
    # 这个为True的话,会直接过滤网页中的robots文件中的链接,可能会导
    
    # 致爬虫无法爬取全部页面,需要设置为False
    

    好了,接下来就可以开始我们的爬虫之旅

    # -*- coding: utf-8 -*-
    import scrapy
    import re
    from scrapy.http import Request
    from urllib import parse
    
    
    class JobboleSpider(scrapy.Spider):
        name = 'jobbole'
        #allowed_domains = ['blog.jobbole.com/']
        start_urls = ['http://blog.jobbole.com/all-posts/']
    
        def parse(self, response):
            # 解析列表页中的所欲文章链接交给scrapy
            post_urls = response.css('#archive .floated-thumb .post-thumb a::attr(href)').extract()
            for post_url in post_urls:
                # scrapy 的解析函数
                yield Request(url=parse.urljoin(response.url, post_url), callback=self.parse_detail)
                # 使用parse.urljoin的原因是有些网站的href链接不会给到主域名,需要使用该函数直接获取当前网站的主域名并和当前获取的href进行拼接
                # 函数 parse_detail 作为我们的回调函数(callback),当Request下载完成之后调用,获取详情页信息
            next_urls = response.css('.next.page-numbers::attr(href)').extract_first('')
            if next_urls:
                yield Request(url=parse.urljoin(response.url, post_url), callback=self.parse)
    
        def parse_detail(self, response):
            # 提取文章的具体字段
            # 获取标题
            title = response.xpath('/html/body/div[1]/div[3]/div[1]/div[1]/h1/text()').extract_first('')
            # text()  获取文本信息
            # extract() 获取值  返回的类型是列表   可以用extract()[0]获取第一个参数
    
            # 获取文章发布时间
            create_date = response.xpath("//p[@class='entry-meta-hide-on-mobile']/text()").extract()[0].strip().replace("·", "").strip()
            print(create_date)
            # strip()  删除换行,空格等字符
            # replace("·", "")  将"·"替换为空格
    
            # 获取文章点赞数
            praise_nums = response.xpath("//span[contains(@class,'vote-post-up')]/h10/text()").extract()[0]
            # contains 内置函数  当一个标签有多个class属性值得时候,可以进行筛选  第一个参数是标签  第二个参数是查找的属性值
    
            # 获取文章收藏数
            fav_nums = response.xpath("//span[contains(@class,'bookmark-btn')]/text()").extract()[0]
            match_fav_re = re.match('(\d+)', fav_nums)
            if match_fav_re == None:
                fav_nums = 0
            else:
                fav_nums = match_fav_re.group(0)
    
            # 获取文章评论数
            comment_nums = response.css("span.hide-on-480::text").extract_first('')
            match_comment_re = re.match('(\d+)', comment_nums)
            if match_comment_re == None:
                comment_nums = 0
            else:
                comment_nums = match_comment_re.group(0)
    
            # 获取文章整体信息
            content = response.xpath("//div[@class='entry']").extract()[0]
    
            # 获取文章领域等
            tag_list = response.xpath("//p[@class='entry-meta-hide-on-mobile']/a/text()").extract()
            for element in tag_list:
                if not element.strip().endswith('评论'):
                    tags = ','.join(tag_list)
    
    

    注意事项:

    1.运行前把源文件生成的allowed_domains注释掉

    class JobboleSpider(scrapy.Spider):
        name = 'jobbole'
        #allowed_domains = ['blog.jobbole.com/']
        start_urls = ['http://blog.jobbole.com/all-posts/']
    

    不注释的话,会产生的bug
    程序在parse函数中进行for循环下载当前页的post_urls,不会调用下面的回调函数parse_detail,直至for循环完毕

    for post_url in post_urls:
      # scrapy 的解析函数
      # parse.urljoin(response.url, post_url)
      print(post_url)
      yield Request(url=parse.urljoin(response.url, post_url), callback=self.parse_detail)
    

    回调函数这里不是调用parse_detail函数 不要加括号

    正确写法

    callback=self.parse_detail
    

    错误示范

    callback=self.parse_detail()
    

    2.错误提示:list index out of range

    comment_nums = response.css("span.hide-on-480::text").extract()[0]
    

    将extract()[0]改为extract.first()
    原因:
    当评论数为0时,comment_nums 变量中第一个参数为空,当extract()[0]获取第一个参数时,会报错,而使用extract.first()获取第一个参数时,会返回None

    comment_nums = response.css("span.hide-on-480::text").extract_first('')
    

    3.原视频中使用正则表达式获取评论点赞数,经检测,只能获取当前列表的第一个数字,若点赞数为俩位数及以上,则无法准确获取

    comment_nums = response.css("span.hide-on-480::text").extract_first('')
            match_comment_re = re.match('.*(\d+).*', comment_nums)
            if match_comment_re == None:
                comment_nums = 0
            else:
                comment_nums = match_comment_re.group(0)
    

    现将文中'.*(\d+).*'改为'(\d+)'

    comment_nums = response.css("span.hide-on-480::text").extract_first('')
            match_comment_re = re.match('(\d+)', comment_nums)
            if match_comment_re == None:
                comment_nums = 0
            else:
                comment_nums = match_comment_re.group(0)
    

    相关文章

      网友评论

        本文标题:小爬虫实践项目-爬取伯乐在线全部文章信息

        本文链接:https://www.haomeiwen.com/subject/ulcfpftx.html