1 背景
Xpath是爬虫中用于解析HTML代码的一种方式,具有效率高、简单易学的特点。目前Chrome浏览器和Firefox浏览器都自带了Xpath表达式的提取工具。但是这些工具都比较难用,本文将介绍一款好用的Chrome浏览器插件:Xpath helper。
接下来将介绍这款工具的安装和使用方法:
2 下载安装
点击此处下载安装或者直接在Chrome应用商店搜索“Xpath helper”进行安装。
注意: 需要科学上网才可以在官网下载
3 使用方法
-
点击Chrome浏览器右上角的Xpath helper图标
点击图标打开
-
打开之后的界面如下:
image.png
- 在页面的任意位置点击,使鼠标焦点在网页上。此时把鼠标指针移动到需要提取的内容的位置,按下shift键。如在豆瓣电影分类页面上,我们需要提取第一个标题,操作如下图所示
提取电影标题
4 Xpath表达是的调试和提取原则
Xpath表达式书写原则:
- 越短越好,只要能够唯一定位元素即可,这样可以避免出错的概率
- 尽量使用元素属性定位,如id,class等,而不是使用索引定位的方式
- 尽量使用相对路径,而不是绝对路径
爬虫中需要注意的点:
前端展示的内容包含异步加载的内容,但是大部分的爬虫不能加载异步的内容。因此要注意需要提取的内容必须在网页源代码中。
网友评论