美文网首页
scrapy框架

scrapy框架

作者: python小哥哥2020 | 来源:发表于2020-06-13 21:42 被阅读0次

    大家好,我是天空之城,今天给大家带来,运用scrapy爬虫框架高效爬取数据和存储数据。
    Scrapy的用法
    0.创建Scrapy项目
    1定 义item(数据)
    2创建 和编写spiders文件
    3修改settings.py文件
    4运行Scrapy爬 虫


    在这里插入图片描述

    写代码:
    明确目标
    分析过程
    代码实现(逐步)

    以爬取豆瓣图书为演示https://book.douban.com/top250
    豆瓣Top250图书一共有10页,每页有25本书籍。我们的目标是:先只爬取前三页书籍的信息,也就是爬取前75本书籍的信息(包含书名、出版信息和书籍评分)。
    网址规律,
    第2页的网址:
    https:/ /book.douban.com/ top250?start=25
    第3页的网址:
    https:/ /book.douban.com/ top250?start=50
    
    右击检查,你就会发现,其实每一页的25本书籍信息都分别藏在了一个<table width="100%">标签里。不过这个标签没有class属性,也没有id属性,不方便我们提取信息。
    
    如果你想在自己本地的电脑使用Scrapy,需要提前安装好它。(安装方法:Windows:在终端输入命令:pip install scrapy;mac:在终端输入命令:pip3 install scrapy,按下enter键)
    
    新建一个Python文件夹里的Pythoncode子文件夹。
    然后,再输入一行能帮我们创建Scrapy项目的命令:scrapy startproject douban,douban就是Scrapy项目的名字。按下enter键,一个Scrapy项目就创建成功了。
    
    
    
    
    
    
    

    相关文章

      网友评论

          本文标题:scrapy框架

          本文链接:https://www.haomeiwen.com/subject/ccaztktx.html