美文网首页
「爬虫」14爬虫之scrapy爬虫项目和xpath表达式

「爬虫」14爬虫之scrapy爬虫项目和xpath表达式

作者: 林拂晓 | 来源:发表于2020-01-16 16:50 被阅读0次

1.scrapy爬虫项目

(1)一个完整的爬虫项目包括以下爬虫文件:

爬虫项目包括的文件

(2)将所有文件封装形成scrapy框架:

scrapy架构(图片来源于网络)

2.编辑scrapy爬虫项目的软件——JetBrains Pycharm

专业版安装与破解过程参考博客:https://www.cnblogs.com/RyanLea/p/11405045.html

3.提取信息的两种表达式

(1)正则表达式:urllib库进行爬虫时使用的表达式,包括贪婪模式和懒惰模式,一般匹配网站url使用懒惰模式。

(2)xpath表达式:scrapy框架进行爬虫时使用的表达式,是一种基于对应标签的提取方式,提取效率较高。

①从顶端提取:/html

②提取文本信息:text()

③提取标签里面的属性信息:@

④寻找所有指定的标签://标签[@属性=值]

比如:

提取网页标题: 

/html/head/title/text()

提取标签下的内容:

 //li[@class=”content”]/a/@href

4.爬虫项目文件编写顺序

①设置爬虫目标:items.py

②编写爬虫:spiders/bd.py

③设置后续处理:pipelines.py

④设置配置信息/开启爬虫:settings.py

5.scrapy框架下自动爬虫的两种方式

①通过for循环实现(见项目15、17);

②使用通用爬虫,建立crawl模板的爬虫项目(即爬取初始url--->获得当前所有链接--->条件筛选--->依次去爬,到页面无链接为止。类似搜索引擎)(见项目18)

相关文章

网友评论

      本文标题:「爬虫」14爬虫之scrapy爬虫项目和xpath表达式

      本文链接:https://www.haomeiwen.com/subject/xanfzctx.html