美文网首页
1、scrapy的使用

1、scrapy的使用

作者: 郭祺迦 | 来源:发表于2018-10-08 11:39 被阅读0次

使用:

(1):新建工程

scrapy startproject 工程名

(2):认识目录

doubanpro               工程总目录
    doubanpro           项目目录
        __pycache__     缓存文件
        spiders         爬虫目录
            __pycache__ 缓存文件 
            __init__.py 包的标记
            XXX.py      爬虫文件名(*)
        __init__.py     包的标记
        items.py        定义数据结构的地方(*)
        middlewares.py  中间件
        pipelines.py    管道文件,保存数据的地方(*)
        settings.py     项目配置文件(*)
    scrapy.cfg          工程配置文件,基本不用

(3):生成爬虫文件

cd  爬虫的工程名
scrapy genspider 爬虫名字 域名

(4):认识response对象

统一来到spiders文件夹里面运行
    response.url        得到请求的url
    response.text       得到响应的字符串内容
    response.body       得到响应的字节内容
    response.status     得到响应状态码
    response.headers    得到响应头部
scrapy里面已经集成好了xpath和bs4,可以直接使用,但是和以前学习的略有不同
    response.xpath()   :里面写xpath路径
        得到的都是selector对象,需要通过extract()提取
    response.css()     :里面写选择器
        里面就是写选择器的,只能写选择器
        获取文本:选择器::text
        获取属性:选择器::attr(属性)
        得到的也是selector对象,需要extract去提取

(5):运行,保存为指定格式文件

scrapy crawl douban -o douban.json
scrapy crawl douban -o douban.xml
scrapy crawl douban -o douban.csv

注意如果第一次导出csv需要配置一下,否则会出现空行的情况

完整的过程

a:定义数据结构

  在items.py定义数据结构;定义数据结构创建的对象item使用方式和字典的方式一模一样
  可以将item快速转换为字典
  d = dict(item)

b:处理数据

  配置文件开启管道
  管道文件中将数据写入文件

不用输入scrapy crawl 执行命令的话需要新建一个start.py文件;然后:

    from scrapy import cmdline
    #第一种写法:
    cmdline.execute(['scrapy','crawl','qiubaipro'])
    #第二种写法:
    cmdline.execute(('scrapy crawl qiubaipro'.split(' ')))

相关文章

  • Scrapy安装

    1.安装scrapy使用anaconda安装Scrapy特别方便。conda install scrapy ,输...

  • 通过核心API启动单个或多个scrapy爬虫

    1. 可以使用API从脚本运行Scrapy,而不是运行Scrapy的典型方法scrapy crawl;Scrapy...

  • 爬虫练习_使用scrapy爬取淘宝

    使用爬虫框架scrapy爬取淘宝 一.创建项目 1.安装scrapy pip install scrapy 2.选...

  • 1、scrapy的使用

    使用: (1):新建工程 (2):认识目录 (3):生成爬虫文件 (4):认识response对象 (5):运行,...

  • scrapy入门

    1.scrapy概述 官方网站:http://scrapy.org [orginzation]使用Python开发...

  • 09-Scrapy基础

    一. Scrapy 框架介绍 Scrapy架构图 安装Scrapy 二. 使用Scrapy 使用爬虫可以遵循以下步...

  • scrapy 爬虫

    scrapy 官方文档 scrapy的信号量文档使用 scrapy的扩展文档使用 scrapy统计数据收集 安装:...

  • 32.scrapy中间件的使用

    scrapy中间件的使用 学习目标: 应用 scrapy中使用间件使用随机UA的方法 应用 scrapy中使用代理...

  • Scrapy安装问题

    (1)Scrapy的安装依赖两个包: Twisted lxml 可以直接使用pip install scrapy安...

  • scrapy学习笔记(有示例版)

    scrapy学习笔记(有示例版) 我的博客 scrapy学习笔记1.使用scrapy1.1创建工程1.2创建爬虫模...

网友评论

      本文标题:1、scrapy的使用

      本文链接:https://www.haomeiwen.com/subject/zabdaftx.html