美文网首页
Scrapy的乱七八糟

Scrapy的乱七八糟

作者: ChangYan | 来源:发表于2017-01-09 10:42 被阅读0次

Scrapy是python2.7的一个open source package,目前还不支持py3,安装直接pip install scrapy就可以。

干嘛的?
写爬虫。

使用体会
从backbone开始,到react, angular等一系列前端框架,这次写爬虫用scrapy,深刻体会到一个“束缚性”,the frame calls you, you call the library。当然这不是说框架不好,相反我觉得有两点好处:第一,适合快速上手,毕竟一步一步的都规定好了;第二,效率高。

重点在哪?

  • Scrapy的几个关键命令,比如说
scrapy startproject tutorial
scrapy genspider dmoz
scrapy crawl dmoz
  • Item 的概念
    Item是用来存储爬取信息的一个简单容器,定义了字段的metadata,同时它支持python的dictionary的大部分api。

  • Spiders
    如果你稍微接触过web,尤其是前端,那么spider是怎样爬取数据应该非常好理解。仔细看一下文档里这部分内容http://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/spiders.html

  • Selector
    Selector是基于lxml的一个选择器。类似于beatufulsoup里的find。其支持选择通过两种方式:xpath和css。关于selector的内容不需要强记,用的时候多查就好。

熟悉了这几个概念之后就可以开始尝试写一些简单的爬虫了。Scrapy还支持一些特性,比如说item pipeline用于处理item里的数据,feed export用来存储爬取的数据,等等。这些都在文档里,自己去慢慢看吧……

资源

入门推荐学习:https://github.com/scrapy/dirbot
项目地址:https://github.com/scrapy/scrapy
文档:https://doc.scrapy.org/en/latest/

完。

相关文章

  • Scrapy的乱七八糟

    Scrapy是python2.7的一个open source package,目前还不支持py3,安装直接pip ...

  • 简单 Scrapy 使用小结

    Scrapy 安装Scrapy pip install scrapy Scrapy Doc 查看Scrapy的文档...

  • scrapy框架

    一、scrapy简介 二、scrapy原理 三、scrapy工作流程 四、scrapy框架的创建 五、scrapy...

  • scrapy笔记

    1 scrapy的运行原理 参考:Learning Scrapy笔记(三)- Scrapy基础Scrapy爬虫入门...

  • python爬虫13:scrapy

    scrapy的结构 scrapy的工作原理 scrapy的用法

  • Scrapy笔记

    Scrapy笔记 安装scrapy框架: 安装scrapy:通过pip install scrapy即可安装。 如...

  • scrapy的概念和流程 (黑马教育)

    scrapy的概念和流程 学习目标: 了解 scrapy的概念 了解 scrapy框架的作用 掌握 scrapy框...

  • 28.scrapy的入门使用

    scrapy的入门使用 学习目标: 掌握 scrapy的安装 应用 创建scrapy的项目 应用 创建scrapy...

  • 27. scrapy的概念和流程

    scrapy的概念和流程 学习目标: 了解 scrapy的概念 了解 scrapy框架的作用 掌握 scrapy框...

  • PyCharm运行和调试Scrapy

    前言: PyCharm运行和调试Scrapy,首先需要安装Scrapy,安装Scrapy请点链接Scrapy的安装...

网友评论

      本文标题:Scrapy的乱七八糟

      本文链接:https://www.haomeiwen.com/subject/levqbttx.html