pyspider 爬取去哪网游记内容图片

作者: blaze冰叔 | 来源:发表于2019-08-29 11:00 被阅读0次

pyspider 爬取去哪网游记内容图片
scrapy 爬取去哪网游记内容图片
爬煎蛋网妹子图
PySpider API介绍
Python·爬取当当网图书信息
听说你想学习爬虫？送你一本葵花宝典！不用自宫！高效的学习路径
Python爬虫之Pyspider框架实战
红海战役与战狼2影评分析
Python爬取花瓣网美女图片（动态网站）
Python爬虫项目（一）-马蜂窝旅游信息爬取

昨天学习了pyspider的使用
《Python 3 网络爬虫开发实战》中介绍了使用pyspider爬取去哪的游记内容
然后在书中所介绍的案例的基础上，今天自己又进行了修改完善，实现了游记内容的爬取保存，已经驴友们拍摄的美图的保存。

代码如下

#!/usr/bin/env python
# -*- encoding: utf-8 -*-
# Created on 2019-08-28 14:52:57
# Project: quna

from pyspider.libs.base_handler import *
import os

DIR_PATH = '/Users/********/Desktop/去哪游记' #本地存放路径
 
 
class Handler(BaseHandler):
    crawl_config = {
    }
    
    def __init__(self):
        self.deal = Deal() #初始化文件处理对象
        
    @every(minutes=24 * 60)
    def on_start(self):
        self.crawl('http://travel.qunar.com/travelbook/list.htm', callback=self.index_page) #请求主页
    
    @config(age=10 * 24 * 60 * 60)
    def index_page(self, response):
        for each in response.doc('li > .tit > a').items():
            self.crawl(each.attr.href, callback=self.detail_page, fetch_type='js')
        next = response.doc('.next').attr.href
        self.crawl(next, callback=self.index_page) #请求详情
    
    @config(priority=2)
    def detail_page(self, response):
        images = response.doc('.js_lazyimg').items() #根据返回的网页源码来进行处理，得到所有img标签数据
        name = response.doc('#booktitle').text() #获取游记title
        dir_path = self.deal.mkDir(name) #在文件目录下生成游记文件夹
        if dir_path:
            content = response.doc('#b_panel_schedule').text()#获取游记内容
            self.deal.saveContent(content, dir_path, name)#保存游记内容在游记文件夹下，txt格式
            for img in images: 
                src = img.attr.src #获取img src
                if src:
                    file_name = self.deal.getFileName(src) #获取文件名
                    self.crawl(src, callback=self.save_img, validate_cert = False,
                               save={'dir_path': dir_path, 'file_name': file_name})#请求图片
 
    def save_img(self, response):
        content = response.content
        dir_path = response.save['dir_path']
        file_name = response.save['file_name']
        file_path = dir_path + '/' + file_name
        self.deal.saveImg(content, file_path)
        return file_path
 
class Deal:
    def __init__(self):
        self.path = DIR_PATH
        if not self.path.endswith('/'):
            self.path = self.path + '/'
        if not os.path.exists(self.path):
            os.makedirs(self.path)
 
    def mkDir(self, path):
        path = path.strip()
        dir_path = self.path + path
        exists = os.path.exists(dir_path)
        if not exists:
            os.makedirs(dir_path)
            return dir_path
        else:
            return dir_path
 
    def saveImg(self, content, path):
        f = open(path, 'wb')
        f.write(content)
        f.close()
 
    def saveContent(self, content, dir_path, name):
        file_name = dir_path + "/" + name + ".txt"
        f = open(file_name, "w+")
        f.write(content)
 
    def getFileName(self, url):
        (url, tempfilename) = os.path.split(url)
        return tempfilename