美文网首页
2019-01-18srcrapy框架xpath和css选择器语

2019-01-18srcrapy框架xpath和css选择器语

作者: 太阳出来我爬山坡 | 来源:发表于2019-01-18 08:23 被阅读0次

python 爬虫: srcrapy框架xpath和scc选择器语法

Xpath基本语法

一、常用的路径表达式:

表达式 描述 实例
nodename 选取nodename节点的所有子节点 //div
/ 从根节点选取 /div
// 选取所有的节点,不考虑他们的位置 //div
. 选取当前节点 ./div
.. 选取当前节点的父节点 ..
@ 选取属性 //@calss

举例元素标签为artical标签

语法 说明
artical 选取所有artical元素的子节点
/artical 选取根元素artical
./artical 选取当前元素下的artical
../artical 选取父元素下的artical
artical/a 选取所有属于artical的子元素a元素
//div 选取所有div 子元素,无论div在任何地方
artical//div 选取所有属于artical的div 元素,无论div元素在artical的任何位置
//@class 选取所有名为class 的属性的
a/@href 选取a标签的href属性
a/text() 选取a标签下的文本
string(.) 解析出当前节点下所有文字
string(..) 解析出父节点下所有文字

二、谓语

谓语被嵌在方括号内,用来查找某个特定的节点或包含某个制定的值的节点

语法 说明
/artical/div[1] 选取所有属于artical 子元素的第一个div元素
/artical/div[last()] 选取所有属于artical子元素的最后一个div元素
/artical/div[last()-1] 选取所有属于artical子元素的倒数第2个div元素
/artical/div[position()<3] 选取所有属于artical子元素的前2个div元素
//div[@class] 选取所有拥有属性为class的div节点
//div[@class="main"] 选取所有div下class属性为main的div节点
//div[price>3.5] 选取所有div下元素值price大于3.5的节点

三、通配符

Xpath通过通配符来选取未知的XML元素

表达式| 结果//* |选取所有元素//div/* |选取所有属于div元素的所有子节点//div[@*] |选取所有带属性的元素

四、取多个路径

使用“|”运算符可以选取多个路径

表达式 结果
//div //table 选取文档中所有的div和table节点
//div/a //div/p 选取所有div元素的a和p 元素
artical/div/pl //span 选取所有div下的pl和文档中所有span

五、Xpath轴

轴可以定义相对于当前节点的节点集

轴名称 表达式 描述
ancestor ./ancestor::* 选取当前节点的所有先辈节点(父、祖父)
ancestor-or-self ./ancestor-or-self::* 选取当前节点的所有先辈节点以及节点本身
descendant ./descendant::* 返回当前节点的所有后代节点(子节点、孙节点)
child ./child::* 返回当前节点的所有子节点
parent ./parent::* 选取当前节点的父节点
following ./following::* 选取文档中当前节点结束标签后的所有节点
following-sibling ./following-sibling::* 选取当前节点之后的兄弟节点
preceding ./preceding::* 选取文档中当前节点开始标签前的所有节点
preceding-sibling ./preceding-sibling::* 选取当前节点之前的兄弟节点
self ./self::* 选取当前节点
attribute ./attribute::* 选取当前节点的所有属性

六、功能函数

使用功能函数能够更好的进行模糊搜索

函数 用法 解释
starts-with //div[starts-with(@id,"ma")] 选取id值以ma开头的div节点
contains //div[contains(@id,"ma")] 选取所有id值包含ma的div节点
and //div[contains(@id,"ma") and contains(@id,"in")] 选取id值包含ma和in的div节点
text() //div[contains(text(),"ma")] 选取节点文本包含ma的div节点

CSS选择器语法

语法 说明
* 选择所有节点
#container 选择id为container的节点
.container 选择所有class包含container的节点
div,p 选择所有 div 元素和所有 p 元素
li a 选取所有li 下所有a节点
ul + p 选取ul后面的第一个p元素
div#container > ul 选取id为container的div的第一个ul子元素
ul ~p 选取与ul相邻的所有p元素
a[title] 选取所有有title属性的a元素
a[href="http://baidu.com"] 选取所有href属性为http://baidu.com的a元素
a[href*="baidu"] 选取所有href属性值中包含baidu的a元素
a[href^="http"] 选取所有href属性值中以http开头的a元素
a[href$=".jpg"] 选取所有href属性值中以.jpg结尾的a元素
input[type=radio]:checked 选择选中的radio的元素
div:not(#container) 选取所有id为非container 的div属性
li:nth-child(3) 选取第三个li元素
li:nth-child(2n) 选取第偶数个li元素
a::attr(href) 选取a标签的href属性
a::text 选取a标签下的文本

相关文章

  • 2019-01-18srcrapy框架xpath和css选择器语

    python 爬虫: srcrapy框架xpath和scc选择器语法 Xpath基本语法 一、常用的路径表达式: ...

  • selenium-xpath定位

    XPATH定位 XPATH和CSS选择器最重要的区别是XPATH可以向前和向后查询DOM结构的元素,而CSS选择器...

  • 选择器

    Xpath CSS选择器

  • Scrapy选择器的或操作

    CSS选择器或操作 XPATH选择器或操作

  • xpath和Css定位总结

    Xpath转Css写法图 Xpath等价于css的一些写法 Xpath路径表达式CSS选择器表达式只通过绝对路径、...

  • jQuery 精华一页纸

    1、选择器 $() -- 基于 CSS + XPath 的选择器语法 I、基本选择器 元素 | ID | Clas...

  • Scrapy选择器用法

    Xpath选择器 参考:http://www.scrapyd.cn/doc/186.html CSS选择器 参考:...

  • CSS选择器

    除了正则和XPATH以外,scrapy中还支持第三种选择器,那就是CSS选择器;下面就一一介绍常见的CSS选择器的...

  • xpath css选择器 常见的状态码

    xpath xpath 语法-谓语 xpath语法 css选择器 #上面的网址如何让它显示原文件??待解决 常见的状态码

  • scrapy前了解Xpath

    写爬虫时候节点选择器可以用xpath,css,beautifulsoup。而我们要介绍的是xpath路径写法。xp...

网友评论

      本文标题:2019-01-18srcrapy框架xpath和css选择器语

      本文链接:https://www.haomeiwen.com/subject/tpsgdqtx.html