在cmd里输入scrapy。
全局指令
Available commands:
bench Run quick benchmark test //可以在项目里执行。属于项目指令
fetch Fetch a URL using the Scrapy downloader //直接获取网址的一个指令。可以直接获取某个网页
genspider Generate new spider using pre-defined templates //主要用于创建一个爬虫文件。
runspider Run a self-contained spider (without creating a project) //主要运行一个爬虫
settings Get settings values //跟爬虫配置相关
shell Interactive scraping console //进入一个交互式命令
startproject Create new project //创建一个爬虫项目
version Print Scrapy version //显示版本信息
view Open URL in browser, as seen by Scrapy //打开一个URL
创建一个简单项目
首先打开cmd,进入要存放项目的文件夹
d:
cd +目录名 //项目存放的目录
cd scrapy //scrapy是你在d盘创建的目录。
#scrapy startproject +项目名
scrapy startproject cw
cd cw
scrapy -h
项目指令
bench Run quick benchmark test
check Check spider contracts
crawl Run a spider //运行某一个爬虫文件
edit Edit spider
fetch Fetch a URL using the Scrapy downloader
genspider Generate new spider using pre-defined templates
list List available spiders
parse Parse URL (using its spider) and print the results
runspider Run a self-contained spider (without creating a project)
settings Get settings values
shell Interactive scraping console
startproject Create new project
version Print Scrapy version
view Open URL in browser, as seen by Scrapy
scrapy fetch http://www.baidu.com //获取一个网页
在scrapy目录下新建一个爬虫文件。 //注意扩展名是py.然后用编辑器打开。
from scrapy.spiders import Spider
class Firstspider(Spider):
name="First"
allowed_domains=["baidu.com"]
start_urls=["http://www.baidu.com"]
def parse(self,response):
pass
在cmd里
cd ..
scrapy runspider xue.py
cd cw
scrapy settings --get BOT_NAME
scrapy shell http://www.baidu.com
exit()
scrapy version
scrapy view http://news.163.com //下载到本地然后在浏览器中打开
scrapy bench //测试性能
创建爬虫文件
scrapy genspider -l //查看可用的模板
D:\scrapy\cw>scrapy genspider -l
Available templates:
basic
crawl
csvfeed
xmlfeed
#scrapy genspider -t +模板名 +文件名 +域名
scrapy genspider -t basic xuehuai jianshu.com
scrapy genspider -t basic xuehuai1 wxit.edu.cn
check //检查爬虫是否合规。
#scrapy check +文件名
scrapy check xuehuai
crawl //运行一个爬虫项目下的爬虫文件
#scrapy crawl +文件名
scrapy crawl xuehuai
scrapy crawl xuehuai --nolog //不显示日志信息
list //查看当前爬虫项目下面有哪些可用的爬虫文件
scrapy list
parse //获取指定的url网址
scrapy parse 网址名
scrapy parse http://www.baidu.com
scrapy parse xuehuai http://news.163.com
scrapy parse -h
scrapy parse --spider=xuehuai http://news.163.com
网友评论