4.爬取翻页

作者: 学飞的小鸡 | 来源:发表于2018-10-31 21:04 被阅读0次

4.爬取翻页
selenium+xpath 爬取京东商品信息
scrapy翻页
Web Scraper 使用教程（七）- 进阶用法（点击「翻页器
小爬虫之腾讯招聘网自动翻页采集
Python学习笔记4——爬取异步加载数据
(二)爬取豆瓣网的书名（BeautifulSoup库）|Pyth
用xpath和lxml翻页爬取煎蛋
Web Scraper 使用教程（八）- 进阶用法（点击「更多」
webdriver

# -*- coding: utf-8 -*-
import scrapy
from Boss.items import BossItem

class ZhipinSpider(scrapy.Spider):
    name = 'zhipin'
    allowed_domains = ['zhipin.com']
    start_urls = ['https://www.zhipin.com/c101280600/?query=python&page=1&ka=page-1']
        #['https://www.zhipin.com/c101280600/?query=python&page=%d&ka=page-%d'%(i,i) for i in range(1,21)]
    # ['https://www.zhipin.com/c101280600/?query=python&page=1&ka=page-1']
        # ['https://www.zhipin.com/c101280600/?query=python&page=1&ka=page-1','https://www.zhipin.com/c101280600/?query=python&page=2&ka=page-2','https://www.zhipin.com/c101280600/?query=python&page=3&ka=page-3']
    # 定义一个变量，用于记录当前是第几页
    page = 1

    def parse(self, response):
        job_list = response.xpath("//div[@class='job-list']//li")
        # print(len(job_list))
        for job in job_list:
            item = BossItem()
            item["job"] = job.xpath(".//div[@class='job-title']/text()").extract_first()
            item["salary"] = job.xpath(".//span[@class='red']/text()").extract_first()
            item["company"] = job.xpath(".//div[@class='company-text']//a/text()").extract_first()
            item["position"] = job.xpath(".//div[@class='info-primary']/p//text()[1]").extract_first()
            item["require"] = job.xpath(".//div[@class='info-primary']/p//text()[2]").extract_first() + job.xpath(".//div[@class='info-primary']/p//text()[3]").extract_first()
            item["info"] =  " ".join(job.xpath(".//div[@class='company-text']/p//text()").extract())
            item["hr"] = " ".join(job.xpath(".//div[@class='info-publis']//h3[@class='name']/text()").extract())
            yield item

        # 进行一个翻页操作

        self.page += 1
        if self.page < 20:
            # 重新调度下载器
            url = 'https://www.zhipin.com/c101280600/?query=python&page=%d&ka=page-%d' % (self.page,self.page)
            yield scrapy.Request(url=url,callback=self.parse)
            # 这种方案同步的下载，在一个下载器下载器下载并解析完毕以后继续用手动的调取下载器递归下载