Scrapy常见指令

作者: 薛落花随泪绽放 | 来源:发表于2017-11-03 20:07 被阅读18次

在cmd里输入scrapy。

全局指令
Available commands:
  bench         Run quick benchmark test   //可以在项目里执行。属于项目指令
  fetch         Fetch a URL using the Scrapy downloader   //直接获取网址的一个指令。可以直接获取某个网页
  genspider     Generate new spider using pre-defined templates   //主要用于创建一个爬虫文件。
  runspider     Run a self-contained spider (without creating a project)   //主要运行一个爬虫
  settings      Get settings values   //跟爬虫配置相关
  shell         Interactive scraping console   //进入一个交互式命令
  startproject  Create new project   //创建一个爬虫项目
  version       Print Scrapy version   //显示版本信息
  view          Open URL in browser, as seen by Scrapy   //打开一个URL

创建一个简单项目

首先打开cmd,进入要存放项目的文件夹

d:
cd +目录名  //项目存放的目录
cd scrapy   //scrapy是你在d盘创建的目录。
#scrapy startproject +项目名
scrapy startproject cw 
cd cw
scrapy -h
项目指令
 bench         Run quick benchmark test
  check         Check spider contracts  
  crawl         Run a spider  //运行某一个爬虫文件
  edit          Edit spider  
  fetch         Fetch a URL using the Scrapy downloader
  genspider     Generate new spider using pre-defined templates
  list          List available spiders
  parse         Parse URL (using its spider) and print the results
  runspider     Run a self-contained spider (without creating a project)
  settings      Get settings values
  shell         Interactive scraping console
  startproject  Create new project
  version       Print Scrapy version
  view          Open URL in browser, as seen by Scrapy
scrapy fetch http://www.baidu.com  //获取一个网页

在scrapy目录下新建一个爬虫文件。 //注意扩展名是py.然后用编辑器打开。

from scrapy.spiders import Spider
class Firstspider(Spider):
    name="First"
    allowed_domains=["baidu.com"]
    start_urls=["http://www.baidu.com"]
    def parse(self,response):
        pass

在cmd里

cd ..
scrapy runspider xue.py
cd cw
scrapy settings --get BOT_NAME
scrapy shell http://www.baidu.com
exit()
scrapy version
scrapy view http://news.163.com //下载到本地然后在浏览器中打开
scrapy bench //测试性能

创建爬虫文件

scrapy genspider -l //查看可用的模板
D:\scrapy\cw>scrapy genspider -l
Available templates:
  basic
  crawl
  csvfeed
  xmlfeed
#scrapy genspider -t +模板名 +文件名 +域名 
scrapy genspider -t basic xuehuai jianshu.com
scrapy genspider -t basic xuehuai1 wxit.edu.cn

check //检查爬虫是否合规。

#scrapy check +文件名
scrapy check xuehuai

crawl //运行一个爬虫项目下的爬虫文件

#scrapy crawl +文件名
scrapy crawl xuehuai
scrapy crawl xuehuai --nolog   //不显示日志信息

list //查看当前爬虫项目下面有哪些可用的爬虫文件

scrapy list

parse //获取指定的url网址

scrapy parse 网址名
scrapy parse http://www.baidu.com
scrapy parse xuehuai http://news.163.com
scrapy parse -h
scrapy parse --spider=xuehuai http://news.163.com

相关文章

  • Scrapy常见指令

    在cmd里输入scrapy。 创建一个简单项目 首先打开cmd,进入要存放项目的文件夹 在scrapy目录下新建一...

  • python3.6安装scrapy框架

    网络爬虫,python3.6安装scrapy框架,cmd指令:pip install scrapy 由于Scrap...

  • Scrapy爬虫项目学习

    一、创建scrapy项目 1.安装scrapy环境 2.在指令目录创建scrapy工程 二、创建爬虫文件 Scra...

  • Scrapy指令笔记

    fetch 可以直接获取一个网页genspider 创建爬虫文件runspider 运行一个爬虫settings ...

  • Python爬虫scrapy框架

    环境安装 pip install scrapy测试在终端里录入scrapy指令,没有报错即表示安装成功! 创建一个...

  • 常见指令

    -save的意思是将模块安装到项目目录下,并在package文件的dependencies节点写入依赖 -save...

  • Nginx信号指令

    常见 nginx 信号指令,官网文档 常见指令 Here’s how to send the QUIT (Grac...

  • Scrapy笔记-常用指令

    常用指令 创建项目 设置一个新的Scrapy项目。 运行爬虫 数据提取测试 css选择器 使用 shell,您可以...

  • 2019-02-20 问题(一)

    题目来源:python常见面试题——爬虫&数据库部分 题目: 1. scrapy 和 scrapy-redis 有...

  • VUE 常见指令

    1、常见指令 1.1 v-text 用来设置当前元素的文本内容,相当于innerText ==注意==:会覆盖元素...

网友评论

    本文标题:Scrapy常见指令

    本文链接:https://www.haomeiwen.com/subject/gemtmxtx.html