1.爬虫框架
爬虫框架就是一些爬虫项目的半成品,即对一些常见的功能代码、业务逻辑等进行封装。用户在使用时,需要根据具体爬虫任务对其进行修改之后才能达到用户需求。
2.常见的爬虫框架
①scrapy框架;
②crawley框架;
③portia框架(允许没有任何编程基础的用户可视化爬取网页);
④newspaper框架(提取新闻、文章及内容分析);
⑤python-goose框架(提取文章)...
3.scrapy框架
(1)安装
①升级pip:打开命令提示符窗口,输入命令:
python -m pip install --upgrade pip
②安装visual studio
③安装lxml(https://www.lfd.uci.edu/~gohlke/pythonlibs/)

④安装Twisted(https://www.lfd.uci.edu/~gohlke/pythonlibs/)

⑤安装pypiwin(https://pypi.python.org/pypi/pypiwin32/219)

⑥安装scrapy

(2)scrapy框架常见命令
文件类命令:

①查看命令使用格式:
scrapy fetch -h
②显示网页爬取过程:
scrapy fetch http://www.baidu.com
③不依托爬虫项目,运行爬虫文件:
G:\python课程\>scrapy runspider first.py
④启动scrapy交互终端(测试):
scrapy shell http://www.baidu.com --nolog

⑤创建爬虫项目:
scrapy startproject projectname

⑥查看对应爬虫版本信息:
scrapy version
⑦下载某网页并用浏览器查看:
scrapy view http://news.163.com
项目类命令:

①测试本地硬件性能:
scrapy bench
②查看爬虫文件模版:
scrapy genspider -l

即:基本爬虫(basic)、自动爬虫(crawl)、处理csv文件(csvfeed)、处理xml文件(xmlfeed)
③创建爬虫文件:
scrapy genspider -t basic filename domainname

【注】网址=协议名(http)://主机名(www).域名(baidu.com)
④测试爬虫是否可行:
scrapy check filename

⑤运行爬虫,启动爬虫文件:
scrapy crawl filename

⑥展示当前可以使用的爬虫文件:
scrapy list
⑦直接通过编辑器打开爬虫文件(Linux OS):
scrapy edit bd
⑧获取指定url网址,并进行相应的处理和分析:
scrapy parse url

网友评论