美文网首页
scrapy创建项目及工程目录结构介绍

scrapy创建项目及工程目录结构介绍

作者: 上弦同学 | 来源:发表于2018-11-27 20:06 被阅读0次

进入创建的虚拟环境
(比如我的为 /Users/summerchaser/Desktop/pyenv/all_article)

python virtualenv虚拟环境安装配置 可见 :
https://www.jianshu.com/p/6d72cd0ae827

创建scrapy项目
终端运行
scrapy startproject ArticleSpider

再通过pychrame导入新建的项目
完整工程目录结构如下 :

image.png
  • setting :存放基本配置
SPIDER_MODULES = ['ArticleSpider.spiders']
NEWSPIDER_MODULE = 'ArticleSpider.spiders'
  • pipeline : 数据处理相关文件
  • spider文件夹 : 存放爬虫文件
  • items :类似django的form,定义爬取的字段
# define the fields for your item here like:
# name = scrapy.Field()
  • middleware :中间层处理函数
创建通用模板的爬虫文件

cd到项目文件夹下

终端运行

  • scrapy genspider 爬虫文件名 允许的域名
    scrapy genspider spider_article blog.jobbole.com

会在ArticleSpider文件夹下创建spider_article.py

成功信息

Created spider 'spider_article' using template 'basic' in module:
ArticleSpider.spiders.spider_article

基本框架已经为我们写好了

class SpiderArticleSpider(scrapy.Spider):
    name = 'spider_article'
    allowed_domains = ['blog.jobbole.com']  # 允许搜索的域名
    # 起始url - 所有文章列表页
    start_urls = []

  def parse(self, response):
  pass

设置里更改为虚拟环境下的python解释器,比如我的是
/Users/summerchaser/Desktop/pyenv/all_article/bin/python

apply

相关文章

网友评论

      本文标题:scrapy创建项目及工程目录结构介绍

      本文链接:https://www.haomeiwen.com/subject/uwunqqtx.html