什么是框架?
框架是一个半成品,对基础的代码进行了封装并提供相应的API,开发者在使用框架时直接调用封装好的api可以省去很多代码编写,从而提高工作效率。
安装scrapy
1.安装pywin32
- Microsoft windows的Python扩展提供对大部分win32 API的访问,创建和使用COM对象的能力以及Pythonwin环境。
- 不论电脑是32位还是64位都可以选择安装。
- pip install pywin32
2.安装wheel
- pip install wheel
3,下载Twisted离线文件,进行pip离线安装
- 下载网址:https://pypi.org/project/Twisted/20.3.0/#files
- Twisted是用Python实现的基于事件驱动的网络引擎框架。
- pip install Twisted-20.3.0-cp37-cp37m-win_amd64.whl
4,安装scrapy框架
- pip install scrapy
5,验证:在cmd输入scrapy没有报错则安装成功
Scrapy基本使用:
创建项目:scrapy startproject xxx
进入项目:cd xxx 进入某个文件夹下
创建爬虫:scrapy genspider xxx(爬虫名) xxx.com(爬取域)
运行爬虫:scrapy crawl xxx
14_scrapy框架入门/MySpider/MySpider/spiders/first.py:
import scrapy
class FirstSpider(scrapy.Spider):
name = 'first' # 爬虫文件名称,使用指令创建的,爬虫的唯一标识符,不能重复,启动爬虫的时候会用到
allowed_domains = ['www.baidu.com'] # 限定域名,只爬取该域名下的网页
start_urls = ['http://www.baidu.com/'] # 开始爬取的链接
"""
1.负责解析start_url下载的Response对象,根据item提取数据〈解析item数据的前提是parse里全部requests请求都被加入了爬取队列)
2.如果有新的url则加入爬取队列,负责进一步处理,URL的Request对象
这两点简单来说就是编写爬虫的主要部分
"""
# 数据解析 参数response就是响应回来的对象
def parse(self, response):
print(response.text)
14_scrapy框架入门/MySpider/MySpider/settings.py:
# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 ' \
'Safari/537.36 '
# Obey robots.txt rules
ROBOTSTXT_OBEY = False # 改为False后,可以不遵从robots.txt协议
LOG_LEVEL = "ERROR" # 修改日志的输出
文章到这里就结束了!希望大家能多多支持Python(系列)!六个月带大家学会Python,私聊我,可以问关于本文章的问题!以后每天都会发布新的文章,喜欢的点点关注!一个陪伴你学习Python的新青年!不管多忙都会更新下去,一起加油!
Editor:Lonelyroots
网友评论