scrapy,一种深度爬虫的框架,在这个里面,不需要我们在设计爬取步骤,一个已经写好的模板
首先你现在cmd上运行
scrapy startproject 项目名
在spider文件夹下,创建自己的爬虫项目
项目
首先import scrapy
#创建一个类
class Spider(scrapy.Spider):
eg1:#创建一个start_requests方法,这个方法是是scrapy自带的,用于给引擎模块网站,然后用下载模块下载网站内容
def start_request:
name = ‘spidername’
#urls里是需要爬取的网址
urls = []
for url in urls:
#这一步交给引擎爬取内容,返回parse方法
yield scrapy.Request(url, callback=self.parse)
eg2:#用上面的方法有时太过繁琐,可以把上面的直接省略成一步
#这个可以把URL和请求简略成一步
start_urls = []
#不过这样写了,就必须使用scrapy自带的parse方法
#在这个方法中,可以用正则或者是xpath来获取爬取的内容
def parse:
#在parse中添加这个,可以第二次爬虫链接
yield scrapy.Request(url,callback=self.parse)
当你想要运行爬虫的时候,需要在cmd中输入:scrapy crawl spidername
网友评论