使用虚拟环境
查看当前的虚拟环境
wokon
选择自己用的
wokon xxx
workon article_spider
scrapy的搭建
在安装好scrapy的前前提下进行
创建scrapy
scrapy startproject ArticleSpider
scrapy创建
创建完成后
目录介绍
目录结构scrapy大量的借鉴了django的设计理念
scrapy.cfg 配置文件 类似django
settings.py 配置文件 工程,module(路径)
pipelines.py 数据存贮
middlewares.py
items.py from 定义数据保存的一种格式 比django简单
spiders 写爬虫的目录,默认是空的
genspider 命令
scrapy genspider jobbole blog.jobbole.com
执行成功后,会在spiders目录下生成jobbole.py文件
import scrapy
class JobboleSpider(scrapy.Spider):
name = 'jobbole'
allowed_domains = ['blog.jobbole.com']
start_urls = ['http://blog.jobbole.com/']
def parse(self, response):
pass
修改settings.py中的
ROBOTSTXT_OBEY = False
网友评论