美文网首页
scrapy爬虫

scrapy爬虫

作者: milomallo | 来源:发表于2017-08-30 09:23 被阅读22次

一、安装

首先Python、lxml、OpenSSL这些工具Ubuntu是自带的,不用管它们。

其次安装pip,在命令行中执行以下命令:

sudo apt-get install python-pip

然后安装两个安装Scrapy需要的依赖库,在命令行中分别执行以下三条命令:

sudo apt-get install python-dev
sudo apt-get install libevent-dev
sudo apt-get install libssl-dev  #在阿里云上配置的时候发现还要安这个 

最后安装Scrapy,在命令行中执行以下命令:

sudo pip install scrapy

然后我们的最新版Scrapy就安装好了,可以执行下列命令查看版本号:

scrapy version

二、框架介绍

参考:http://blog.csdn.net/wbainngg123/article/details/77696634

scrapy由下面几个部分组成

spiders:爬虫模块,负责配置需要爬取的数据和爬取规则,以及解析结构化数据

items:定义我们需要的结构化数据,使用相当于dict

pipelines:管道模块,处理spider模块分析好的结构化数据,如保存入库等

middlewares:中间件,相当于钩子,可以对爬取前后做预处理,如修改请求header,url过滤等

三、爬虫实践

1、爬取京东商品介绍等详细信息 (存储到Excel中)

2、爬取淘宝天猫商品信息

3、爬取豆瓣书籍信息

这里爬取的结果分别存到mysql或者Excel中;

代码附在GitHub上:

相关文章

网友评论

      本文标题:scrapy爬虫

      本文链接:https://www.haomeiwen.com/subject/tbvodxtx.html