scrapy创建项目及工程目录结构介绍

作者: 上弦同学 | 来源:发表于2018-11-27 20:06 被阅读0次

scrapy创建项目及工程目录结构介绍
爬虫（4-1 4-2）
scrapy 笔记（1）
Scrapy爬虫项目学习
[CP_15] Python爬虫框架02：Scrapy框架爬取咨
创建一个scrapy项目
Scrapy的使用
python爬虫框架scrapy基本使用
原生项目中引入ReactNative介绍篇
scrapy入门使用及pycharm远程调试

进入创建的虚拟环境
（比如我的为 /Users/summerchaser/Desktop/pyenv/all_article）

python virtualenv虚拟环境安装配置可见 :
https://www.jianshu.com/p/6d72cd0ae827

创建scrapy项目
终端运行
scrapy startproject ArticleSpider

再通过pychrame导入新建的项目
完整工程目录结构如下 :

image.png

setting ：存放基本配置

SPIDER_MODULES = ['ArticleSpider.spiders']
NEWSPIDER_MODULE = 'ArticleSpider.spiders'

pipeline ：数据处理相关文件
spider文件夹 : 存放爬虫文件
items ：类似django的form，定义爬取的字段

# define the fields for your item here like:
# name = scrapy.Field()

middleware ：中间层处理函数

创建通用模板的爬虫文件

cd到项目文件夹下

终端运行

scrapy genspider 爬虫文件名允许的域名
scrapy genspider spider_article blog.jobbole.com

会在ArticleSpider文件夹下创建spider_article.py

成功信息

Created spider 'spider_article' using template 'basic' in module:
ArticleSpider.spiders.spider_article

基本框架已经为我们写好了

class SpiderArticleSpider(scrapy.Spider):
    name = 'spider_article'
    allowed_domains = ['blog.jobbole.com']  # 允许搜索的域名
    # 起始url - 所有文章列表页
    start_urls = []

  def parse(self, response):
  pass

设置里更改为虚拟环境下的python解释器，比如我的是
/Users/summerchaser/Desktop/pyenv/all_article/bin/python

apply

网友评论

本文标题：scrapy创建项目及工程目录结构介绍

本文链接：https://www.haomeiwen.com/subject/uwunqqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

scrapy创建项目及工程目录结构介绍

创建通用模板的爬虫文件

相关文章

scrapy创建项目及工程目录结构介绍

爬虫（4-1 4-2）

scrapy 笔记（1）

Scrapy爬虫项目学习

[CP_15] Python爬虫框架02：Scrapy框架爬取咨

创建一个scrapy项目

Scrapy的使用

python爬虫框架scrapy基本使用

原生项目中引入ReactNative介绍篇

scrapy入门使用及pycharm远程调试

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读