一、创建项目
scrapy startproject myfirstpro (myfirstpro为爬虫项目的名称可以中自行命名)
命令行切换到scrapy工程目录 scrapy genspider 'name' 'http://url' 创建spider文件
文件详解
爬虫配置文件 settings.py
BOT_NAME 命名爬虫的名称 执行爬虫的时候使用此名字
USER_AGENT 伪造成浏览器访问
USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'
ROBOTSTXT_OBEY 是否遵守robots协议 一般选择False
ROBOTSTXT_OBEY = False
DOWNLOAD_DELAY表示对同一个站点抓取延迟
DOWNLOAD_DELAY = 1 表示1秒抓取一次
CONCURRENT_REQUESTS_PER_DOMAIN表示对同一个站点并发有多少个线程抓取
CONCURRENT_REQUESTS_PER_DOMAIN= 1
CONCURRENT_REQUESTS_PER_IP
ITEM_PIPELINES 管线
爬虫数据类型文件 items.py
定义需要爬取内容的数据格式
爬虫储存文件 pipelines.py
执行保存数据的操作,将Item的数据保存
需要在settings.py中pipelines的使用
二、创建爬虫程序
在项目目录下spiders文件夹中创建爬虫
import scrapy #导入爬虫依赖库
class mySpider(scarpy.Spider):
name='spider' #爬虫名称,当此名称与settings的BOT_NAME相同时执行此爬虫
start_urls=['http://www.baidu.com']#起始url地址
###三、启动爬虫
scrapy crawl 爬虫名称
##在pycharm中调试或执行scrapy项目 参考链接https://blog.csdn.net/wangsidadehao/article/details/52911746
网友评论