scrapy-简书文章内容的爬取

作者: CaesarsTesla | 来源:发表于2017-07-07 14:57 被阅读150次

scrapy-简书文章内容的爬取
实战爬取简书网热评文章（基于lxml及多进程爬虫方法）
简书用户动态信息爬虫
简书用户动态信息爬虫
爬取简书文章
Scrapy进阶-防ban策略
初识scrapy爬取糗事百科全部段子
scrapy-爬取王者荣耀--英雄皮肤
爬取简书全站文章并生成 API（二）
使用Scrapy框架爬取简书首页文章（Selenium）

一、设置请求头

我使用的是Safari浏览器，右键可以直接找到有关页面的请求标头的信息。
将请求标头的信息写入到settings.py文件中，如下：

DEFAULT_REQUEST_HEADERS = {
  'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Accept-Language': 'en',
  'referer': 'www.jianshu.com',
  'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/602.3.12 (KHTML, like Gecko) Version/10.0.2 Safari/602.3.12'
}

二、爬取代码

2.1在执行爬取操作的时候我们会对网页的内容进行分析，可以使用scrapy shell url的方式，在命令行中就可以进行网页的内容进行提取。

import scrapy

class toscrapyJianshu(scrapy.Spider):
    name = 'toscrapeJianshu'
    start_urls = [
        'http://www.jianshu.com/p/0587c1ce6f2d',
    ]

    def parse(self, response):
        content =  response.css('div.show-content')
        pArr = content.css('p::text').extract()
        for p in pArr:
            yield  {'content':p}