美文网首页
爬虫框架scrapy篇二——创建一个scrapy项目

爬虫框架scrapy篇二——创建一个scrapy项目

作者: 一只酸柠檬精 | 来源:发表于2021-01-27 15:10 被阅读0次

    1、创建scrapy项目

    在开始爬取之前,我们首先要创建一个scrapy项目,在命令行输入以下命令即可创建

    scrapy startproject xxx
    

    xxx是你要新建的项目名称
    项目名称必须以字母开头,并且仅包含字母、数字和下划线

    运行结果:

    image.png

    创建项目成功后,会看到以下的文件结构:

    image.png

    文件作用:

    project_name/
       scrapy.cfg:
       project_name/
           __init__.py
           items.py
           pipelines.py
           settings.py
           spiders/
               __init__.py
    
    scrapy.cfg   项目的总配置文件,通常无须修改。。(真正爬虫相关的配置信息在settings.py文件中)
    items.py     设置数据存储模板,用于结构化数据,通常就是定义 N 个属性,该类需要由开发者来定义。
    pipelines    项目的管道文件,它负责处理爬取到的信息。例如存入数据库或者生成xml文件等。该文件需要由开发者编写。
    settings.py  配置文件,如:递归的层数、并发数,延迟下载等
    spiders      爬虫目录,如:创建文件,编写爬虫解析规则
    

    2.创建爬虫应用程序

    cd project_name(进入项目目录,最外层的project_name)
    scrapy genspider 应用名称 爬取网页的起始url 
    (例:scrapy genspider movie80 www.80s.tw/movie/list)
    

    创建爬虫应用程序后,会在项目的spiders中生成一个应用名称的py爬虫文件,如下图:


    image.png

    文件源码如下(为方便查看,修改了部分内容):

    import scrapy
    
    
    class Movie80Spider(scrapy.Spider):
        name = 'movie80'    # 应用名称
        allowed_domains = ['80s.tw']  # 允许爬取的域名,需要手动修改(如果遇到非该域名的url则爬取不到数据,但是对于start_urls里的起始爬取页面,它是不会过滤的)
        start_urls = ['https://www.80s.tw/movie/list/']  # 起始爬取的url
    
        # 访问起始URL并获取结果后的回调函数,该函数的response参数就是向起始的url发送请求后,获取的响应对象.该函数返回值必须为可迭代对象或者NUll
        def parse(self, response):
            print("爬虫开始运行,结果如下————")
            print(response)  # 获取字符串类型的响应内容
    

    注:创建爬虫应用程序时,填写爬取网页的起始url一定不要带https:// 或者http://,不然会出现以下错误

    image.png

    3、修改settings类

    修改内容及其结果如下:

     # 忽略robots协议
    ROBOTSTXT_OBEY = False
    
    # 伪装请求头
    DEFAULT_REQUEST_HEADERS = {
      "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36",
      "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8"
    }
    
    
    

    4、执行爬虫程序

    scrapy crawl  应用名称
    

    成功则如下图

    image.png

    5、遇到的一些错误

    5.1、运行爬虫时报错 Unknow command:crawl

    注:执行爬虫程序时要先将目录切换到我们创建的最外层的scrapy项目目录下,
    否则就会出现以下错误:

    image.png

    5.2、运行爬虫时报错 SyntaxError: (unicode error) 'utf-8' codec can't decode byte 0xc5 in position 0: invalid continuation byte

    问题:


    image.png

    解决办法:
    在应用程序的爬虫文件的第一行加上以下代码就ok:

    # -*- coding: utf-8 -*-
    
    image.png

    5.3、运行爬虫时数据无异常,但报错 robotstxt_body = robotstxt_body.decode('utf-8')

    问题:


    image.png

    这是由于遵守了 Robot协议造成的,所以我们需要拒绝遵守 Robot协议

    解决办法:
    在settings.py中加入以下代码:

    ROBOTSTXT_OBEY = False
    
    image.png

    传送门
    爬虫框架scrapy篇一——scrapy的架构
    https://www.jianshu.com/p/39b326f9cad6
    爬虫框架scrapy篇三——数据的处理与持久化以及遇到的一些问题
    https://www.jianshu.com/p/8824623b551c
    爬虫框架scrapy篇四——数据入库(mongodb,mysql)
    https://www.jianshu.com/p/573ca74c2277
    爬虫框架scrapy篇五——其他操作:post翻页请求
    https://www.jianshu.com/p/bca689b4ebbd

    相关文章

      网友评论

          本文标题:爬虫框架scrapy篇二——创建一个scrapy项目

          本文链接:https://www.haomeiwen.com/subject/kdhazktx.html