美文网首页
Scrapy的乱七八糟

Scrapy的乱七八糟

作者: ChangYan | 来源:发表于2017-01-09 10:42 被阅读0次

    Scrapy是python2.7的一个open source package,目前还不支持py3,安装直接pip install scrapy就可以。

    干嘛的?
    写爬虫。

    使用体会
    从backbone开始,到react, angular等一系列前端框架,这次写爬虫用scrapy,深刻体会到一个“束缚性”,the frame calls you, you call the library。当然这不是说框架不好,相反我觉得有两点好处:第一,适合快速上手,毕竟一步一步的都规定好了;第二,效率高。

    重点在哪?

    • Scrapy的几个关键命令,比如说
    scrapy startproject tutorial
    scrapy genspider dmoz
    scrapy crawl dmoz
    
    • Item 的概念
      Item是用来存储爬取信息的一个简单容器,定义了字段的metadata,同时它支持python的dictionary的大部分api。

    • Spiders
      如果你稍微接触过web,尤其是前端,那么spider是怎样爬取数据应该非常好理解。仔细看一下文档里这部分内容http://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/spiders.html

    • Selector
      Selector是基于lxml的一个选择器。类似于beatufulsoup里的find。其支持选择通过两种方式:xpath和css。关于selector的内容不需要强记,用的时候多查就好。

    熟悉了这几个概念之后就可以开始尝试写一些简单的爬虫了。Scrapy还支持一些特性,比如说item pipeline用于处理item里的数据,feed export用来存储爬取的数据,等等。这些都在文档里,自己去慢慢看吧……

    资源

    入门推荐学习:https://github.com/scrapy/dirbot
    项目地址:https://github.com/scrapy/scrapy
    文档:https://doc.scrapy.org/en/latest/

    完。

    相关文章

      网友评论

          本文标题:Scrapy的乱七八糟

          本文链接:https://www.haomeiwen.com/subject/levqbttx.html