Scrapy爬虫-简介

作者: 北静王 | 来源:发表于2016-07-04 16:49 被阅读439次

文:郑元春

人生苦短,我用Python

由于最近需要做些大数据分析的工作,所以就学习了写下爬虫了,毕竟数据才是分析的基础。如果能够得到了数据,那么你的数据挖掘或者是数据分析工作就已经成功了一半。

什么是Scrapy?

Scrapy is a fast high-level web crawling and web scraping framework, used to crawl websites and extract structured data from their pages. It can be used for a wide range of purposes, from data mining to monitoring and automated testing.
项目文档:Scrapy文档
项目Git:源码

首先,先放上Scrapy的原理图:


Spider代码1 Spider代码2

有的教程上面写的是继承自BaseSpider,新版中已经改成了Spider类,并且在源码中声明了已经丢弃了BaseSpider的用法,将BaseSpider指到了Spider类上。
主要看的是name和start_urls的使用和生成上。还有parse需要在你的类中实现。

上面只是最简单的爬虫程序,还没涉及到item和pipeline的使用,在命令行中运行下面的指令,就可以启动爬虫程序并开始执行了。

scrapy crawl domz

这里crawl后面的参数就是你在你的子类中写的name的值。

参考

1.scrapy 笔记1--smiling博客
2.scrapy笔记2--smiling博客

相关文章

网友评论

    本文标题:Scrapy爬虫-简介

    本文链接:https://www.haomeiwen.com/subject/psdxjttx.html