美文网首页
scrapy-简书文章内容的爬取

scrapy-简书文章内容的爬取

作者: CaesarsTesla | 来源:发表于2017-07-07 14:57 被阅读150次

一、设置请求头

  我使用的是Safari浏览器,右键可以直接找到有关页面的请求标头的信息。
  将请求标头的信息写入到settings.py文件中,如下:

DEFAULT_REQUEST_HEADERS = {
  'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Accept-Language': 'en',
  'referer': 'www.jianshu.com',
  'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/602.3.12 (KHTML, like Gecko) Version/10.0.2 Safari/602.3.12'
}

二、爬取代码

  • 2.1在执行爬取操作的时候我们会对网页的内容进行分析,可以使用scrapy shell url的方式,在命令行中就可以进行网页的内容进行提取。
import scrapy

class toscrapyJianshu(scrapy.Spider):
    name = 'toscrapeJianshu'
    start_urls = [
        'http://www.jianshu.com/p/0587c1ce6f2d',
    ]

    def parse(self, response):
        content =  response.css('div.show-content')
        pArr = content.css('p::text').extract()
        for p in pArr:
            yield  {'content':p}

三、执行爬虫

  我使用的是pycharm,直接在pycharm的命令行中执行scrapy crawl toscrapeJianshu -o jianshu.json,可以执行这个小爬虫并输出为json文件。

相关文章

网友评论

      本文标题:scrapy-简书文章内容的爬取

      本文链接:https://www.haomeiwen.com/subject/iholhxtx.html