select详解
Document 继承自 Element 类。select方法将返回一个Elements集合。
1.通过标签名来查找:
测试代码:
![](https://img.haomeiwen.com/i12078281/b66f43c39dcc0adc.png)
select写法:
![](https://img.haomeiwen.com/i12078281/6a8986ac28ba8484.png)
下面的例子都按照上面的格式来写,就不进行重复的标注了。
2.通过id来查找:
![](https://img.haomeiwen.com/i12078281/12a511b6fabaeb9c.png)
3.通过class名来查找:
![](https://img.haomeiwen.com/i12078281/7c4d66af7e5e9520.png)
4.利用标签内属性名查找元素:
![](https://img.haomeiwen.com/i12078281/add891261f5ae4e0.png)
5.利用标签内属性名前缀查找元素:
![](https://img.haomeiwen.com/i12078281/3de6565d76b94587.png)
6.利用标签内属性名+正则表达式查找元素
对正则表达式不了解的同学下去一定要学习正则表达式哦,因为它在爬虫中可是很重要的。
![](https://img.haomeiwen.com/i12078281/48efd83d90f3e213.png)
7.利用标签文本包含某些内容来查找:
![](https://img.haomeiwen.com/i12078281/c0b6f777f4991a17.png)
8.利用标签文本包含某些内容+正则表达式来查找:
![](https://img.haomeiwen.com/i12078281/ea7a70ac12eb2b5b.png)
当然select还有其他强大的功能,如果对select感兴趣的同学可以查看select API,我只是列出了获取网页特定内容所需要的select的基本语法,基本上对于大部分的爬虫需求来说已经足够了。
下来给大家展示一个使用select获取特定元素值的代码:
![](https://img.haomeiwen.com/i12078281/b4c6ef23475ef213.png)
上面的代码可以看到select的用法与前面讲的没有什么区别。对于Element 这个类来说,如果我们要获取一个标签中的属性值或文本内容可以这样来做:
![](https://img.haomeiwen.com/i12078281/f2e3d8dff1236342.png)
网友评论