「爬虫」14爬虫之scrapy爬虫项目和xpath表达式

作者: 林拂晓 | 来源:发表于2020-01-16 16:50 被阅读0次

「爬虫」14爬虫之scrapy爬虫项目和xpath表达式
Scrapy总结
2018-05-13
scrapy简单操作流程、目录介绍
scrapy简单操作流程
scrapy简单操作流程、目录介绍
Scrapy的使用
爬虫框架常见命令（善忘者）
Scrapy笔记
Pycharm+Scrapy框架运行爬虫糗事百科（无items数

1.scrapy爬虫项目

（1）一个完整的爬虫项目包括以下爬虫文件：

爬虫项目包括的文件

（2）将所有文件封装形成scrapy框架：

scrapy架构（图片来源于网络）

2.编辑scrapy爬虫项目的软件——JetBrains Pycharm

专业版安装与破解过程参考博客：https://www.cnblogs.com/RyanLea/p/11405045.html

3.提取信息的两种表达式

（1）正则表达式：urllib库进行爬虫时使用的表达式，包括贪婪模式和懒惰模式，一般匹配网站url使用懒惰模式。

（2）xpath表达式：scrapy框架进行爬虫时使用的表达式，是一种基于对应标签的提取方式，提取效率较高。

①从顶端提取：/html

②提取文本信息：text()

③提取标签里面的属性信息：@

④寻找所有指定的标签：//标签[@属性=值]

比如：

提取网页标题：

/html/head/title/text()

提取标签下的内容：

//li[@class=”content”]/a/@href

4.爬虫项目文件编写顺序

①设置爬虫目标：items.py

②编写爬虫：spiders/bd.py

③设置后续处理：pipelines.py

④设置配置信息/开启爬虫：settings.py

5.scrapy框架下自动爬虫的两种方式

①通过for循环实现（见项目15、17）；

②使用通用爬虫，建立crawl模板的爬虫项目（即爬取初始url--->获得当前所有链接--->条件筛选--->依次去爬，到页面无链接为止。类似搜索引擎）（见项目18）

网友评论

本文标题：「爬虫」14爬虫之scrapy爬虫项目和xpath表达式

本文链接：https://www.haomeiwen.com/subject/xanfzctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

「爬虫」14爬虫之scrapy爬虫项目和xpath表达式

相关文章