《Python3.64网络爬虫实战第二版》
清华大学出版社 胡松涛著
2019-01-07
【Scrapy 爬虫框架】
5.1 安装Scrapy
pip
5.1.3vim编辑器
5.2 Scrapy选择器XPath与CSS
seketors选择器
-XPath xml选择节点的语言 CSS与特定元素样式关联
Scrapy选择器构建于lxml
5.2.1 XPath选择器
XPath期中节点类型
路径表达式
5.2.2 CSS选择器
5.2.3 其他选择器
XPath还有.re()方法正则表达式获取
不同于.xpath() 和css()
re()返回unicode字符串列表 故而无法嵌套
选择器lxml 故支持一些Exsit扩展
【Beautilful Soup 】
6.1 安装Beautilful Soup
pip - - https://blog.csdn.net/u013258415/article/details/78974665
6.1.3Eclipse
--Pydev插件
6.2 Beautilful Soup解析器
6.2.1 bs4解析器选择
html.parser/lxml的html解析/lxml的xml解析/html5lib
6.2.3 使用bs4过滤
通过标签 标签属性查找;
且配合第三方解析器 威力更大更方便
网友评论