美文网首页
Scrapy-redis爬虫操作流程

Scrapy-redis爬虫操作流程

作者: 岑景 | 来源:发表于2021-03-12 09:03 被阅读0次

1.打开cmd命令行工具,输入scrapy startproject 项目名称

2.使用pycharm打开项目,查看项目目录

3.创建爬虫,打开CMD,cd命令进入到爬虫项目文件夹,输入scrapy genspider 爬虫文件名 爬虫基础域名

4.打开pycharm,发现spiders目录下多出一个py文件

5修改这个py文件的url为你想爬去页面的url

6.运行爬虫scrapy crawl py文件名(提示被反爬)

7开始模拟请求

    7.1在你要爬取的当前页面按F12  >  点击Network  >  点击左侧红色框含cookie的文件(一般第一个)  >  复制Request Headers中所有参数(含cookie)

    7.2修改settings.py下图三个参数(CTRL + F找),把复制的请求头已字典格式放入DEFAULT_REQUEST_HEADERS(可能要对参数进行删减,也可能就一个参数user-agent足以)

    7.3运行命令scrapy crawl py文件名        我的文件名是userinfor

    就看到了当前网页的数据,直到显示      INFO: Spider closed (finished)      结束

6.将爬虫拿到的数据保存为json格式数据

Scrapy crawl bole -o XXX.json

相关文章

网友评论

      本文标题:Scrapy-redis爬虫操作流程

      本文链接:https://www.haomeiwen.com/subject/dafushtx.html