Python（七十五）scrapy框架入门

作者: Lonelyroots | 来源:发表于2022-03-06 22:24 被阅读0次

2019Python学习教程（全套Python学习视频）：Scr
Python（七十五）scrapy框架入门
Scrapy框架总结(1)
Python爬虫Scrapy(二)_入门案例
（大纲37）Python07爬虫第4节、scrapy框架
scrapy小记
DC-01:爬虫框架scrapy入门
Scrapy框架入门
Scrapy框架步骤
Python爬虫学习(4)Scrapy采集框架

什么是框架？

框架是一个半成品，对基础的代码进行了封装并提供相应的API，开发者在使用框架时直接调用封装好的api可以省去很多代码编写，从而提高工作效率。

安装scrapy
1．安装pywin32
- Microsoft windows的Python扩展提供对大部分win32 API的访问，创建和使用COM对象的能力以及Pythonwin环境。
- 不论电脑是32位还是64位都可以选择安装。
- pip install pywin32
2．安装wheel
- pip install wheel
3，下载Twisted离线文件，进行pip离线安装
- 下载网址：https://pypi.org/project/Twisted/20.3.0/#files
- Twisted是用Python实现的基于事件驱动的网络引擎框架。
- pip install Twisted-20.3.0-cp37-cp37m-win_amd64.whl
4，安装scrapy框架
- pip install scrapy
5，验证:在cmd输入scrapy没有报错则安装成功

Scrapy基本使用：
创建项目：scrapy startproject xxx
进入项目：cd xxx 进入某个文件夹下
创建爬虫：scrapy genspider xxx（爬虫名） xxx.com（爬取域）
运行爬虫：scrapy crawl xxx

14_scrapy框架入门/MySpider/MySpider/spiders/first.py：

import scrapy


class FirstSpider(scrapy.Spider):
    name = 'first'  # 爬虫文件名称，使用指令创建的，爬虫的唯一标识符，不能重复，启动爬虫的时候会用到
    allowed_domains = ['www.baidu.com']  # 限定域名，只爬取该域名下的网页
    start_urls = ['http://www.baidu.com/']  # 开始爬取的链接

    """
    1.负责解析start_url下载的Response对象，根据item提取数据〈解析item数据的前提是parse里全部requests请求都被加入了爬取队列）
    2.如果有新的url则加入爬取队列，负责进一步处理，URL的Request对象
    这两点简单来说就是编写爬虫的主要部分
    """

    # 数据解析 参数response就是响应回来的对象
    def parse(self, response):
        print(response.text)

14_scrapy框架入门/MySpider/MySpider/settings.py：

# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 ' \
             'Safari/537.36 '

# Obey robots.txt rules
ROBOTSTXT_OBEY = False  # 改为False后，可以不遵从robots.txt协议

LOG_LEVEL = "ERROR"  # 修改日志的输出

文章到这里就结束了！希望大家能多多支持Python（系列）！六个月带大家学会Python，私聊我，可以问关于本文章的问题！以后每天都会发布新的文章，喜欢的点点关注！一个陪伴你学习Python的新青年！不管多忙都会更新下去，一起加油！

Editor：Lonelyroots