Scrapy基本操作流程

作者: 想飞的大兔子 | 来源:发表于2018-04-13 09:45 被阅读0次

Scrapy基本操作流程
Scrapy 框架学习（二）：Scrapy 入门
scrapy简单操作流程
Scrapy基础（一）：安装和使用
scrapy框架
scrapyd
scrapy的概念和流程 (黑马教育)
27. scrapy的概念和流程
Pycharm+Scrapy框架运行爬虫糗事百科（无items数
Scrapy-Redis简介（六）

一、创建项目

scrapy startproject myfirstpro (myfirstpro为爬虫项目的名称可以中自行命名)
命令行切换到scrapy工程目录 scrapy genspider 'name' 'http://url' 创建spider文件

文件详解

爬虫配置文件 settings.py

BOT_NAME 命名爬虫的名称执行爬虫的时候使用此名字
USER_AGENT 伪造成浏览器访问

USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'

ROBOTSTXT_OBEY 是否遵守robots协议一般选择False

ROBOTSTXT_OBEY = False

DOWNLOAD_DELAY表示对同一个站点抓取延迟

DOWNLOAD_DELAY = 1 表示1秒抓取一次

CONCURRENT_REQUESTS_PER_DOMAIN表示对同一个站点并发有多少个线程抓取

CONCURRENT_REQUESTS_PER_DOMAIN= 1

CONCURRENT_REQUESTS_PER_IP
ITEM_PIPELINES 管线

爬虫数据类型文件 items.py

定义需要爬取内容的数据格式

爬虫储存文件 pipelines.py

执行保存数据的操作，将Item的数据保存
需要在settings.py中pipelines的使用

二、创建爬虫程序

在项目目录下spiders文件夹中创建爬虫

import scrapy  #导入爬虫依赖库
class mySpider(scarpy.Spider):
      name='spider' #爬虫名称，当此名称与settings的BOT_NAME相同时执行此爬虫
      start_urls=['http://www.baidu.com']#起始url地址



###三、启动爬虫
scrapy crawl  爬虫名称

##在pycharm中调试或执行scrapy项目 参考链接https://blog.csdn.net/wangsidadehao/article/details/52911746

网友评论

本文标题：Scrapy基本操作流程

本文链接：https://www.haomeiwen.com/subject/vjnqkftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！