用 Scrapy 从零写一个爬虫

作者: xiyouMc | 来源:发表于2017-07-12 21:51 被阅读133次

用 Scrapy 从零写一个爬虫
（大纲40）Python07爬虫第7节、scrapy-Redi
一、用Scrapy框架开发爬虫
python爬虫——scrapy框架总结
Scrapy爬虫框架
Scrapy框架之新建Scrapy项目详解
QUANTAXIS.SPIDER 爬虫部分
Mac环境下Scrapy的安装
精选Python爬虫和入门书籍！大神必学，疯传
使用feapder开发爬虫是怎样的体验

开头

这两天后台收到了很多读者发消息说：“看了之前写的关于爬虫的文章之后，自己也想写一个爬虫但不知从何下手”。那么我今天就分享一个简单的案例，和大家一起从零写一个简单的爬虫。

在开始分享之前，我想提一件事情。

我知道，爬虫其实在部分外行人心目中一直是一个低劣或者低俗的人才做的事。那么，不管你是不是这么想，我只能说一句：要是没有爬虫我相信很多公司根本就没法起来。

那么，今天我主要通过一个爬虫框架 Scrapy 来一步步实现爬取 V2EX 首页所有的热门文章，旨在让你掌握这个框架来爬取对自己有用的数据。

正文

一、Scrapy 是什么？

官网：
http://scrapy-chs.readthedocs.io/zh_CN/latest/intro/overview.html

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用到数据挖掘，信息处理或存储历史数据等一系列的程序中。

其最初是为了页面爬取（更确切的来说，网络爬取）所设计的，也可以应用在获取API所返回的数据或者通用的网络爬虫。

Scrapy是一个非常强大且好用的爬虫框架，它不仅提供了一些开箱即用的基础组件，还提供了强大的自定义功能。

框架的学习就是修改配置文件，填充代码就可以了。

二、安装 Scrapy？

由于我是用 Mac 来开发的，所以安装命令也是 Mac 下的，至于 Window 和 Linux 可以参考安装。

pip install scrapy

当然，一开始你得有 Python 的开发环境，这里就不安利 Python 的安装方法了。直接百度即可。

三、用 Scrapy 创建一个项目

Scrapy 中提供了 startproject 命令来创建爬虫项目。命令如下：

scrapy startproject V2EX

我们创建一个项目 V2EX 用来爬取 V2 首页文章的所有信息。

其中：

spiders 文件夹下就是你要实现爬虫功能的核心代码。在 spiders 文件夹下创建一个 spider ，用来爬取 V2 首页文章。

scrapy.cfg 是项目的配置文件。

settings.py用于设置请求的参数，使用代理，爬虫数据后文件保存等等的。

四、Scrapy 爬取 V2 首页文章

1、新建 v2exSpider

在 spiders 文件夹下新建一个文件， v2exSpider.py

如上图，start_urls 中添加 v2ex 的首页地址，同时重写 parse 方法。这样 Spider 将基于 start_urls 中的地址进行访问，并将数据回调给 parse 方法。

其中，response 就是返回的网页数据。

处理好的数据放在 items 中，在 items.py 设置好要处理哪些数据字段。这里我们来抓取 V2 首页的：作者地址、作者头像、文章地址、所属节点、作者昵称、最后一次回复者昵称、最后一次回复者地址、最后一次回复时间。

那么，要解析处理哪些数据在 items.py 中定义好，也就相当于 java 中的实体类:

2、 分析 V2EX 首页各元素的 xpath

xpath 的概念可以在 60行代码拿到10G国外xx视频... 中了解，当然你可以直接看这个教程：

http://www.w3school.com.cn/xpath/index.asp

通过 Chrome 打开 v2ex.com ，同时在当前页面空白处点击右键，选中 inspect ，这样就可以看到当前页面的 Elements 。

（图片略大，耐心访问）

在这里我们可以分析出来每一篇文章的标题、地址等等的 xpath 路径。

同时，发现首页的50篇文章都是属于 div[@class='cell item'] 的数据，因此我们可以通过
selector.xpath('//div[@class="cell item"]')
拿到所有文章的数据，然后再分析出具体数据的 xpath ，从而拿到了所有需要的数据。

解析的数据保存：

这时数据分析处理好了，还有最重要的一步，提交：

yield v2Item

OK！万事俱备，数据保存在哪里，什么格式？

在 settings.py 中加入两行代码:

如何运行这个爬虫？
scrapy crawl v2exSpider

这样就可以把 V2EX 的首页文章信息都爬取到了本地的 csv 文件中了。

最后，你会发现当前代码只能爬取 V2 中首页的文章，这时候你就需要分析到 v2ex 中下一页的 xpath ，然后拿到这个 url ，通过 yield Request(next_link,callback=self.parse)，这样就可以一直爬取到 v2 最后一页的数据。
来看看数据：

总结

爬虫需谨慎，爬虫需有度。
本篇文章中项目的源代码托管在 Github，点击【阅读原文】。
....end...

行为艺术要持之以恒，iOS专用赞赏通道。

长摁‘识别二维码’，一起进步

生活不止眼前的苟且，还有手下的代码、
和嘴上的扯淡
——
个人博客: http://xiyoumc.0x2048.com
Github:https://www.github.com/xiyouMc

来自公众号 : DeveloperPython

网友评论

苏鑫的博客:你早一点发好了，就不用那么费力自学中文文档了😭😭😭
xiyouMc:@笔芯er 嗯我最近也刚写了篇关于小程序。
苏鑫的博客: @xiyouMc 打算自己架设服务器弄小程序呢，所有问题全要百度或者谷歌，老师没有一点帮助，所以很感谢您这样把自己经验分享出来的人👍👍👍👍👍
xiyouMc:@笔芯er 没事。现在看到也不迟。后面还会有更多的知识点。记得关注公众号。
PGOne爱吃饺子:啥是爬虫，可以干什么，我是干前端的
xiyouMc:@4140d18ee6fc 网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
leeyyl:另外，保存的文件中文乱码怎么回事？
xiyouMc:@宜人悦己地活着恭喜。不过 v站下一页我在 Demo中并没有实现，只是指出了思路，如果你需要的话不妨实现下然后提PR
leeyyl:@xiyouMc 这个我也知道了，excel编码的问题
xiyouMc:@宜人悦己地活着是不是你的Excel 中文乱码
leeyyl:但是，有个新问题请教一下：
V2EX明明是table／tbody／tr／td结构，为什么我这么写取得始终为空数组，只有按照你写的去掉tbody这一层就可以取到数据呢？
xiyouMc:你这个问题我在看页面源代码的时候也发现了。页面源代码中有 tbody 这个标签，但是 Scrapy 请求下来的没有这个标签，你可以尝试将 table 这个 extract（）打印出来，你就会发现没有 tbody 标签。
leeyyl:V2EX.middlewares' doesn't define any object named 'UserAgentMiddleware'
这是什么意思？
leeyyl:这个问题我已经解决了

本文标题：用 Scrapy 从零写一个爬虫

本文链接：https://www.haomeiwen.com/subject/ytdihxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

用 Scrapy 从零写一个爬虫

开头

正文

一、Scrapy 是什么？

二、安装 Scrapy？

三、用 Scrapy 创建一个项目

四、Scrapy 爬取 V2 首页文章

总结

来自公众号 : DeveloperPython

相关文章

用 Scrapy 从零写一个爬虫

（大纲40）Python07爬虫第7节、scrapy-Redi

一、用Scrapy框架开发爬虫

python爬虫——scrapy框架总结

Scrapy爬虫框架

Scrapy框架之新建Scrapy项目详解

QUANTAXIS.SPIDER 爬虫部分

Mac环境下Scrapy的安装

精选Python爬虫和入门书籍！大神必学，疯传

使用feapder开发爬虫是怎样的体验

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

程序员之道

Python学习笔记

程序员

用 Scrapy 从零写一个爬虫

开头

正文

** 一、Scrapy 是什么？**

二、安装 Scrapy？

三、用 Scrapy 创建一个项目

四、Scrapy 爬取 V2 首页文章

总结

来自公众号 : DeveloperPython

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

一、Scrapy 是什么？