一、设置请求头
我使用的是Safari浏览器,右键可以直接找到有关页面的请求标头的信息。
将请求标头的信息写入到settings.py
文件中,如下:
DEFAULT_REQUEST_HEADERS = {
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'en',
'referer': 'www.jianshu.com',
'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/602.3.12 (KHTML, like Gecko) Version/10.0.2 Safari/602.3.12'
}
二、爬取代码
- 2.1在执行爬取操作的时候我们会对网页的内容进行分析,可以使用
scrapy shell url
的方式,在命令行中就可以进行网页的内容进行提取。
import scrapy
class toscrapyJianshu(scrapy.Spider):
name = 'toscrapeJianshu'
start_urls = [
'http://www.jianshu.com/p/0587c1ce6f2d',
]
def parse(self, response):
content = response.css('div.show-content')
pArr = content.css('p::text').extract()
for p in pArr:
yield {'content':p}
三、执行爬虫
我使用的是pycharm,直接在pycharm的命令行中执行scrapy crawl toscrapeJianshu -o jianshu.json
,可以执行这个小爬虫并输出为json文件。
网友评论