小爬虫实践项目-爬取伯乐在线全部文章信息

作者: 鬼马压刀 | 来源:发表于2018-07-10 11:07 被阅读0次

小爬虫实践项目-爬取伯乐在线全部文章信息
使用scrapy爬虫框架抓取伯乐在线的文章标题、标题url与发布
Python·爬取当当网图书信息
分布式爬虫scrapy+redis入门
python第六天
第六章 spider批量爬取伯乐在线所有文章
数据科学实践与学习索引
第三章爬取伯乐在线
Python爬取伯乐在线网站
scrapy爬取伯乐在线文章

新建项目article

mkvirtualenv py3scrapy

安装scrapy

pip install -i https://pypi.douban.com/simple scrapy

新建scrapy工程Article

(article) F:\DjangoExcise>scrapy startproject ArticleNew Scrapy project 'Article', using template directory 'f:\\envs\\article\\lib\\site-packages\\scrapy\\templates\\project', created in:
    F:\DjangoExcise\Article

You can start your first spider with:
    cd Article
    scrapy genspider example example.com
# 使用模板创建爬虫，模板可以自定义，但是我们暂时先用默认模板

使用模板创建爬虫

(article) F:\DjangoExcise>cd article # 先进入工程目录

(article) F:\DjangoExcise\Article>scrapy genspider jobbole blog.jobbole.com
# jobbole  为文件名称  
# blog.jobbole.com 为需要爬取的网站页
Created spider 'jobbole' using template 'basic' in module:
  Article.spiders.jobbole

启动scrapy

(article) F:\DjangoExcise\Article>scrapy crawl jobbole

Windows下可能会报错，提示缺少‘win32api’

(article) F:\DjangoExcise\Article>pip install -i https://pypi.douban.com
/simple pypiwin32

安装完成后再次启动即可
因为我们的开发工具使用Pycharm，但是Pycharm不支持调试scrapy，需
要自定义配置一个调试文件，方便我们实时进行调试
Article主目录下新建py文件main

from scrapy.cmdline import execute
import sys
import os
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
# os.path.abspath(__file__) 获取当前文件路径（main.py）
# os.path.dirname() 获取当前文件的父路径
execute(['scrapy', 'crawl', 'jobbole'])
# execute 传入的是一个列表

修改setting文件的ROBOTSTXT_OBEY值

ROBOTSTXT_OBEY = False
# 这个为True的话，会直接过滤网页中的robots文件中的链接，可能会导

# 致爬虫无法爬取全部页面，需要设置为False

好了，接下来就可以开始我们的爬虫之旅

# -*- coding: utf-8 -*-
import scrapy
import re
from scrapy.http import Request
from urllib import parse


class JobboleSpider(scrapy.Spider):
    name = 'jobbole'
    #allowed_domains = ['blog.jobbole.com/']
    start_urls = ['http://blog.jobbole.com/all-posts/']

    def parse(self, response):
        # 解析列表页中的所欲文章链接交给scrapy
        post_urls = response.css('#archive .floated-thumb .post-thumb a::attr(href)').extract()
        for post_url in post_urls:
            # scrapy 的解析函数
            yield Request(url=parse.urljoin(response.url, post_url), callback=self.parse_detail)
            # 使用parse.urljoin的原因是有些网站的href链接不会给到主域名，需要使用该函数直接获取当前网站的主域名并和当前获取的href进行拼接
            # 函数 parse_detail 作为我们的回调函数（callback），当Request下载完成之后调用，获取详情页信息
        next_urls = response.css('.next.page-numbers::attr(href)').extract_first('')
        if next_urls:
            yield Request(url=parse.urljoin(response.url, post_url), callback=self.parse)

    def parse_detail(self, response):
        # 提取文章的具体字段
        # 获取标题
        title = response.xpath('/html/body/div[1]/div[3]/div[1]/div[1]/h1/text()').extract_first('')
        # text()  获取文本信息
        # extract() 获取值  返回的类型是列表   可以用extract()[0]获取第一个参数

        # 获取文章发布时间
        create_date = response.xpath("//p[@class='entry-meta-hide-on-mobile']/text()").extract()[0].strip().replace("·", "").strip()
        print(create_date)
        # strip()  删除换行，空格等字符
        # replace("·", "")  将"·"替换为空格

        # 获取文章点赞数
        praise_nums = response.xpath("//span[contains(@class,'vote-post-up')]/h10/text()").extract()[0]
        # contains 内置函数  当一个标签有多个class属性值得时候，可以进行筛选  第一个参数是标签  第二个参数是查找的属性值

        # 获取文章收藏数
        fav_nums = response.xpath("//span[contains(@class,'bookmark-btn')]/text()").extract()[0]
        match_fav_re = re.match('(\d+)', fav_nums)
        if match_fav_re == None:
            fav_nums = 0
        else:
            fav_nums = match_fav_re.group(0)

        # 获取文章评论数
        comment_nums = response.css("span.hide-on-480::text").extract_first('')
        match_comment_re = re.match('(\d+)', comment_nums)
        if match_comment_re == None:
            comment_nums = 0
        else:
            comment_nums = match_comment_re.group(0)

        # 获取文章整体信息
        content = response.xpath("//div[@class='entry']").extract()[0]

        # 获取文章领域等
        tag_list = response.xpath("//p[@class='entry-meta-hide-on-mobile']/a/text()").extract()
        for element in tag_list:
            if not element.strip().endswith('评论'):
                tags = ','.join(tag_list)

注意事项：

1.运行前把源文件生成的allowed_domains注释掉

class JobboleSpider(scrapy.Spider):
    name = 'jobbole'
    #allowed_domains = ['blog.jobbole.com/']
    start_urls = ['http://blog.jobbole.com/all-posts/']

不注释的话，会产生的bug
程序在parse函数中进行for循环下载当前页的post_urls，不会调用下面的回调函数parse_detail，直至for循环完毕

for post_url in post_urls:
  # scrapy 的解析函数
  # parse.urljoin(response.url, post_url)
  print(post_url)
  yield Request(url=parse.urljoin(response.url, post_url), callback=self.parse_detail)

回调函数这里不是调用parse_detail函数不要加括号

正确写法

callback=self.parse_detail

错误示范

callback=self.parse_detail()

2.错误提示：list index out of range

comment_nums = response.css("span.hide-on-480::text").extract()[0]

将extract()[0]改为extract.first()
原因：
当评论数为0时，comment_nums 变量中第一个参数为空，当extract()[0]获取第一个参数时，会报错，而使用extract.first()获取第一个参数时，会返回None

comment_nums = response.css("span.hide-on-480::text").extract_first('')

3.原视频中使用正则表达式获取评论点赞数,经检测，只能获取当前列表的第一个数字，若点赞数为俩位数及以上，则无法准确获取

comment_nums = response.css("span.hide-on-480::text").extract_first('')
        match_comment_re = re.match('.*(\d+).*', comment_nums)
        if match_comment_re == None:
            comment_nums = 0
        else:
            comment_nums = match_comment_re.group(0)

现将文中'.*(\d+).*'改为'(\d+)'

comment_nums = response.css("span.hide-on-480::text").extract_first('')
        match_comment_re = re.match('(\d+)', comment_nums)
        if match_comment_re == None:
            comment_nums = 0
        else:
            comment_nums = match_comment_re.group(0)