1.scrapy爬虫项目
(1)一个完整的爬虫项目包括以下爬虫文件:
![](https://img.haomeiwen.com/i1969457/a45ac2dcc7d9d6ef.png)
(2)将所有文件封装形成scrapy框架:
![](https://img.haomeiwen.com/i1969457/e880b32d8c31bd98.png)
2.编辑scrapy爬虫项目的软件——JetBrains Pycharm
专业版安装与破解过程参考博客:https://www.cnblogs.com/RyanLea/p/11405045.html
3.提取信息的两种表达式
(1)正则表达式:urllib库进行爬虫时使用的表达式,包括贪婪模式和懒惰模式,一般匹配网站url使用懒惰模式。
(2)xpath表达式:scrapy框架进行爬虫时使用的表达式,是一种基于对应标签的提取方式,提取效率较高。
①从顶端提取:/html
②提取文本信息:text()
③提取标签里面的属性信息:@
④寻找所有指定的标签://标签[@属性=值]
比如:
提取网页标题:
/html/head/title/text()
提取标签下的内容:
//li[@class=”content”]/a/@href
4.爬虫项目文件编写顺序
①设置爬虫目标:items.py
②编写爬虫:spiders/bd.py
③设置后续处理:pipelines.py
④设置配置信息/开启爬虫:settings.py
5.scrapy框架下自动爬虫的两种方式
①通过for循环实现(见项目15、17);
②使用通用爬虫,建立crawl模板的爬虫项目(即爬取初始url--->获得当前所有链接--->条件筛选--->依次去爬,到页面无链接为止。类似搜索引擎)(见项目18)
网友评论