概念:
1继承scrapy.Spider的class是爬虫的主要文件,
其中name是关键字,代表此爬虫程序的唯一ID
allowed_domains也是关键字,限定可访问的域名,
start_urls也是关键字,代表要爬虫的网址,
def parse(self, response)
要复写此函数来解析爬虫网址,
response是返回来的html文本
爬虫关键就是提取数据,
Scrapy提供了基于XPath和CSS表达式的Selectors,
官方说XPath比CSS更牛逼,带X的都挺牛逼的,所以后面重点我们就学习使用XPath来提取数据就好了。
网友评论