美文网首页
scrapy爬虫

scrapy爬虫

作者: milomallo | 来源:发表于2017-08-30 09:23 被阅读22次

    一、安装

    首先Python、lxml、OpenSSL这些工具Ubuntu是自带的,不用管它们。

    其次安装pip,在命令行中执行以下命令:

    sudo apt-get install python-pip

    然后安装两个安装Scrapy需要的依赖库,在命令行中分别执行以下三条命令:

    sudo apt-get install python-dev
    sudo apt-get install libevent-dev
    sudo apt-get install libssl-dev  #在阿里云上配置的时候发现还要安这个 

    最后安装Scrapy,在命令行中执行以下命令:

    sudo pip install scrapy

    然后我们的最新版Scrapy就安装好了,可以执行下列命令查看版本号:

    scrapy version

    二、框架介绍

    参考:http://blog.csdn.net/wbainngg123/article/details/77696634

    scrapy由下面几个部分组成

    spiders:爬虫模块,负责配置需要爬取的数据和爬取规则,以及解析结构化数据

    items:定义我们需要的结构化数据,使用相当于dict

    pipelines:管道模块,处理spider模块分析好的结构化数据,如保存入库等

    middlewares:中间件,相当于钩子,可以对爬取前后做预处理,如修改请求header,url过滤等

    三、爬虫实践

    1、爬取京东商品介绍等详细信息 (存储到Excel中)

    2、爬取淘宝天猫商品信息

    3、爬取豆瓣书籍信息

    这里爬取的结果分别存到mysql或者Excel中;

    代码附在GitHub上:

    相关文章

      网友评论

          本文标题:scrapy爬虫

          本文链接:https://www.haomeiwen.com/subject/tbvodxtx.html