美文网首页
「爬虫」13爬虫框架之scrapy框架的安装与常用命令

「爬虫」13爬虫框架之scrapy框架的安装与常用命令

作者: 林拂晓 | 来源:发表于2020-01-15 17:56 被阅读0次

1.爬虫框架

    爬虫框架就是一些爬虫项目的半成品,即对一些常见的功能代码、业务逻辑等进行封装。用户在使用时,需要根据具体爬虫任务对其进行修改之后才能达到用户需求。

2.常见的爬虫框架

①scrapy框架;

②crawley框架;

③portia框架(允许没有任何编程基础的用户可视化爬取网页);

④newspaper框架(提取新闻、文章及内容分析);

⑤python-goose框架(提取文章)...

3.scrapy框架

(1)安装

①升级pip:打开命令提示符窗口,输入命令:

python -m pip install --upgrade pip

②安装visual studio

③安装lxml(https://www.lfd.uci.edu/~gohlke/pythonlibs/)

cmd安装lxml的命令行

④安装Twisted(https://www.lfd.uci.edu/~gohlke/pythonlibs/)

cmd安装Twisted的命令行

⑤安装pypiwin(https://pypi.python.org/pypi/pypiwin32/219)

cmd安装pypiwin的命令行    

⑥安装scrapy

cmd安装scrapy的命令行

(2)scrapy框架常见命令

文件类命令:

scrapy文件类命令

①查看命令使用格式:

scrapy fetch -h

②显示网页爬取过程:

scrapy fetch http://www.baidu.com

③不依托爬虫项目,运行爬虫文件:

G:\python课程\>scrapy runspider first.py

④启动scrapy交互终端(测试):

scrapy shell http://www.baidu.com --nolog

scrapy shell命令

⑤创建爬虫项目:

scrapy startproject projectname

scrapy创建爬虫项目命令

⑥查看对应爬虫版本信息:

scrapy version

⑦下载某网页并用浏览器查看:

scrapy view http://news.163.com

项目类命令:

scrapy项目类命令

①测试本地硬件性能:

scrapy bench

②查看爬虫文件模版:

scrapy genspider -l

爬虫模板

即:基本爬虫(basic)、自动爬虫(crawl)、处理csv文件(csvfeed)、处理xml文件(xmlfeed)

③创建爬虫文件:

scrapy genspider -t basic filename domainname

scrapy创建爬虫项目命令

【注】网址=协议名(http)://主机名(www).域名(baidu.com)

④测试爬虫是否可行:

scrapy check filename

测试爬虫项目命令

⑤运行爬虫,启动爬虫文件:

scrapy crawl filename

启动爬虫项目命令

⑥展示当前可以使用的爬虫文件:

scrapy list

⑦直接通过编辑器打开爬虫文件(Linux OS):

scrapy edit bd

⑧获取指定url网址,并进行相应的处理和分析:

scrapy parse url

scrapy parse命令

相关文章

网友评论

      本文标题:「爬虫」13爬虫框架之scrapy框架的安装与常用命令

      本文链接:https://www.haomeiwen.com/subject/vlotzctx.html