美文网首页
scrapy 创建及简单的爬虫demo

scrapy 创建及简单的爬虫demo

作者: yichen_china | 来源:发表于2021-10-28 11:59 被阅读0次

    本文只是记录学习的过程,后期会重新整理:
    创建项目下的spiders文件夹下的spider。

    先安装

    pip install  scrapy
    

    创建项目

    scrapy startproject  tencent
    

    以爬取百度信息为例:

    • spiders
    • init.py (已有文件)
    • baidu.py (需要新建,名称自行定义,要有区分性)

    下面主要以 baidu.py 文件为讲解

    导入 scrapy 模块;如果变红,原因可能是项目的编译环境中没有scrapy模块,重新选择正确的编译环境即可

    import scrapy
    
    
    # 新建一个爬虫类
    # 格式: class 爬虫名称+Spider(scrapy.Spider)
    class BaiduSpider(scrapy.Spider):
        # 1. 指定爬虫名称, 要与项目关联,后期在log中方便审查
        name = "baidu"
    
        # 2. 初始启动链接, start_urls 这个属性名是固定的
        start_urls = ['http://dtsdwh.cn']
    
        # 3. 重写 Spider 类下的 parse 方法,parse()起解析功能
        # 此步骤已经请求一次结束,进行解析。在框架的 downloader 下载完成后将页面源代码传给 spider 。spider进行解析。
        # 文件写入路径是项目的根目录下
        def parse(self, response):
            print("结果————————————————————————————————————————————————————————————————————————————————————————————————————————————————")
    
            with open('内容写在这个文件.html', 'w', encoding='utf-8') as f:
                f.write(response.body.decode('utf-8'))
    

    以上已经完成一个简单的百度页面的爬取功能。

    进行调试
    在该项目的文件夹下 进入命令行模式。
    执行 scrapy crawl baidu
    此处应该会失败。因为每个网站都有一个robots.txt,表示网站不允许爬的网站目录。scrapy框架遵守该协议。所以需要修改Scrapy框架的配置文件

    在项目目录下的 settings.py 修改一下内容:
    ROBOTSTXT_OBEY = False # 默认是True
    命令行下重新执行 scrapy crawl baidu

    相关文章

      网友评论

          本文标题:scrapy 创建及简单的爬虫demo

          本文链接:https://www.haomeiwen.com/subject/ysqvaltx.html