美文网首页python
Python(七十五)scrapy框架入门

Python(七十五)scrapy框架入门

作者: Lonelyroots | 来源:发表于2022-03-06 22:24 被阅读0次

什么是框架?

框架是一个半成品,对基础的代码进行了封装并提供相应的API,开发者在使用框架时直接调用封装好的api可以省去很多代码编写,从而提高工作效率。

安装scrapy
1.安装pywin32
- Microsoft windows的Python扩展提供对大部分win32 API的访问,创建和使用COM对象的能力以及Pythonwin环境。
- 不论电脑是32位还是64位都可以选择安装。
- pip install pywin32
2.安装wheel
- pip install wheel
3,下载Twisted离线文件,进行pip离线安装
- 下载网址:https://pypi.org/project/Twisted/20.3.0/#files
- Twisted是用Python实现的基于事件驱动的网络引擎框架。
- pip install Twisted-20.3.0-cp37-cp37m-win_amd64.whl
4,安装scrapy框架
- pip install scrapy
5,验证:在cmd输入scrapy没有报错则安装成功

Scrapy基本使用:
创建项目:scrapy startproject xxx
进入项目:cd xxx 进入某个文件夹下
创建爬虫:scrapy genspider xxx(爬虫名) xxx.com(爬取域)
运行爬虫:scrapy crawl xxx

14_scrapy框架入门/MySpider/MySpider/spiders/first.py:

import scrapy


class FirstSpider(scrapy.Spider):
    name = 'first'  # 爬虫文件名称,使用指令创建的,爬虫的唯一标识符,不能重复,启动爬虫的时候会用到
    allowed_domains = ['www.baidu.com']  # 限定域名,只爬取该域名下的网页
    start_urls = ['http://www.baidu.com/']  # 开始爬取的链接

    """
    1.负责解析start_url下载的Response对象,根据item提取数据〈解析item数据的前提是parse里全部requests请求都被加入了爬取队列)
    2.如果有新的url则加入爬取队列,负责进一步处理,URL的Request对象
    这两点简单来说就是编写爬虫的主要部分
    """

    # 数据解析 参数response就是响应回来的对象
    def parse(self, response):
        print(response.text)

14_scrapy框架入门/MySpider/MySpider/settings.py:

# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 ' \
             'Safari/537.36 '

# Obey robots.txt rules
ROBOTSTXT_OBEY = False  # 改为False后,可以不遵从robots.txt协议

LOG_LEVEL = "ERROR"  # 修改日志的输出

文章到这里就结束了!希望大家能多多支持Python(系列)!六个月带大家学会Python,私聊我,可以问关于本文章的问题!以后每天都会发布新的文章,喜欢的点点关注!一个陪伴你学习Python的新青年!不管多忙都会更新下去,一起加油!

Editor:Lonelyroots

相关文章

网友评论

    本文标题:Python(七十五)scrapy框架入门

    本文链接:https://www.haomeiwen.com/subject/mmtgrrtx.html