文:郑元春
人生苦短,我用Python
由于最近需要做些大数据分析的工作,所以就学习了写下爬虫了,毕竟数据才是分析的基础。如果能够得到了数据,那么你的数据挖掘或者是数据分析工作就已经成功了一半。
什么是Scrapy?
Scrapy is a fast high-level web crawling and web scraping framework, used to crawl websites and extract structured data from their pages. It can be used for a wide range of purposes, from data mining to monitoring and automated testing.
项目文档:Scrapy文档
项目Git:源码
首先,先放上Scrapy的原理图:


有的教程上面写的是继承自BaseSpider
,新版中已经改成了Spider类,并且在源码中声明了已经丢弃了BaseSpider的用法,将BaseSpider指到了Spider类上。
主要看的是name和start_urls的使用和生成上。还有parse需要在你的类中实现。
上面只是最简单的爬虫程序,还没涉及到item和pipeline的使用,在命令行中运行下面的指令,就可以启动爬虫程序并开始执行了。
scrapy crawl domz
这里crawl后面的参数就是你在你的子类中写的name的值。
网友评论