美文网首页
scrapy日记

scrapy日记

作者: skp221 | 来源:发表于2017-12-01 20:36 被阅读0次

1.安装

pip install Scrapy
#python3 安装twisted报错,Microsoft Visual C++ 14.0 is required.根据链接下载visual c++ build tools
no module named win32api
# http://sourceforge.net/projects/pywin32/files/下载对应的包。
#虚拟环境安装:切换到到虚拟目录easy_instatll "xxx.exe"。
#使用pycharm创建的虚拟目录,安装提示权限问题。可以命令行创建虚拟环境,再pycharm关联该虚拟环境。找到Python.exe

2.调试模式 scrapy shell

scrapy shell "http://xxx.xxx.com"
#如出现403,可以命令行添加UA,scrapy shell "url" -s USER_AGENT="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36"
#添加默认UA,site-packages\scrapy\settings\default_settings.py中USER_AGENT = "Mozilla/5.0 (Windows NT 5.1; rv:5.0) Gecko/20100101 Firefox/5.0"

3.在IDE中运行

根目录新建Python文件。
from scrapy.cmdline import execute
execute(['scrapy', 'crawl', 'qiushibaike'])
#第3个参数为spider的name

4.设置setting.py

HTTPCACHE_ENABLED = True
HTTPCACHE_EXPIRATION_SECS = 0
HTTPCACHE_DIR = 'httpcache'
HTTPCACHE_IGNORE_HTTP_CODES = []
HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'
#打开这几项设置,可以读取已经请求过的缓存文档
#在settings里面, 
DOWNLOAD_DELAY = 0.25 # 250 ms of delay
#设置爬虫请求间隔时间

5.HTTP status code is not handled or not allowed错误

setting.py添加 HTTPERROR_ALLOWED_CODES = [503]

相关文章

  • scrapy日记

    1.安装 2.调试模式 scrapy shell 3.在IDE中运行 4.设置setting.py 5.HTTP ...

  • 简单 Scrapy 使用小结

    Scrapy 安装Scrapy pip install scrapy Scrapy Doc 查看Scrapy的文档...

  • scrapy框架

    一、scrapy简介 二、scrapy原理 三、scrapy工作流程 四、scrapy框架的创建 五、scrapy...

  • Scrapy笔记

    Scrapy笔记 安装scrapy框架: 安装scrapy:通过pip install scrapy即可安装。 如...

  • scrapy笔记

    1 scrapy的运行原理 参考:Learning Scrapy笔记(三)- Scrapy基础Scrapy爬虫入门...

  • Scrapy基础(一): 安装和使用

    安装 新建scrapy项目 目录 scrapy模板 使用pycharm调试scrapy执行流程 scrapy 终端...

  • scrapy 学习日记

    文章出处:【scrapy】学习Scrapy入门 整体结构 引擎(Scrapy Engine),用来处理整个系统的数...

  • python爬虫13:scrapy

    scrapy的结构 scrapy的工作原理 scrapy的用法

  • Scrapy笔记

    Scrapy笔记 pip 指定源安装模块 创建Scrapy项目 创建Scrapy爬虫程序 启动Scrapy爬虫 在...

  • PyCharm运行和调试Scrapy

    前言: PyCharm运行和调试Scrapy,首先需要安装Scrapy,安装Scrapy请点链接Scrapy的安装...

网友评论

      本文标题:scrapy日记

      本文链接:https://www.haomeiwen.com/subject/ajtgbxtx.html