querylist的使用
首先,querylist是时下php最先进的dom采集包之一,而且是国人写的,中文文档很好,如果想用好,应该直接看一遍官方文档
我这里简单记录下我对querylisty使用的理解。目标是用一篇文章解释如何使用。方便我超过2个月后回忆....
操作流程
主要分为三步
- 载入资源
- 筛选目标
- 读取结果
举例:
<?php
require 'QueryList/vendor/autoload.php';
use QL\QueryList;
$html = <<<STR
<div id="one">
<div class="two">
<a href="http://querylist.cc">QueryList官网</a>
<img src="http://querylist.com/1.jpg" alt="这是图片">
<img src="http://querylist.com/2.jpg" alt="这是图片2">
</div>
<span>其它的<b>一些</b>文本</span>
</div>
STR;
$rules = array(
'text' => array('#one','text'),
'link' => array('.two>a','href'),
'img' => array('.two>img:eq(1)','src'),
'other' => array('span','html')
);
$data = QueryList::html($html) // 1.载入资源
->rules($rules) // 2.筛选目标之输入筛选规则
->query() // 2.筛选目标之执行筛选
->getData(); // 3.读取结果
print_r($data->all()); // 3.读取结果之转换格式
我们需要了解的就是每一步具体有那些更细的方法?主要第二步筛选,怎么用?
载入资源
$html = file_get_contents('https://querylist.cc/');
方法 | 说明 |
---|---|
html() | $ql = QueryList::html($html); |
setHtml($html) | 作用同上 $ql->setHtml($html); |
getHtml() | 获取设置的待采集的html源码 $data = $ql->getHtml(); |
get() | get插件,用来轻松获取网页。该插件基于GuzzleHttp,请求参数与它一致。 |
筛选目标
//html源码
$html='';
//采集规则
$rules = [];
//设置规则和执行筛选
$ql = QueryList::html($html)->rules($rules)->query();
//读取结果
$data = $ql->getData();
print_r($data->all());
方法 | 说明 |
---|---|
rules($arr) | 设置筛选规则,是一个数组,看下面详细介绍和举例 |
range() | 这个是rules的补充,看文档代码就明白了 |
removeHead() | 移除页面头部head区域,乱码终极解决方案,采集出现不可解决的乱码问题的时候,可以尝试调用这个方法来解决乱码问题。 |
query() | 执行采集规则rules,执行完这个方法后才可以用getData()方法获取到采集数据。 |
rules单独说明
//采集规则
$rules = array(
'规则名' => array('jQuery选择器','要采集的属性'[,"标签过滤列表"][,"回调函数"]),
'规则名2' => array('jQuery选择器','要采集的属性'[,"标签过滤列表"][,"回调函数"]),
..........
);
rules字段 | 说明 |
---|---|
规则名 | 不要重复 随便写 |
jQuery选择器 | jq会不 |
要采集的属性 | - text:返回当前选中标签下面的纯文本 - html:返回当前选中标签下面的html片段 - [HTML标签属性]:如src、href、name、data-src等任意HTML标签属性名 |
标签过滤列表 | 设置此选项可用来过滤不想要的内容,多个值之间用空格隔开,有如下2条规则: - 当标签名前面添加减号(-)时(此时标签可以为任意的jQuery选择器),表示移除该标签以及标签内容。 - 当标签名前面没有减号(-)时,当 [要采集的属性] 值为text时表示需要保留的HTML标签以及内容,为html时表示要过滤掉的HTML标签但保留内容。 |
回调函数 |
举例:
$rules = [
'link' => ['a','href'],
'content' => ['.article','html','-.ad1 -.ad2']
];
读取结果
方法 | 说明 |
---|---|
getData() | 返回值为Laravel中Collection集合对象,通过它的all()方法可转为数组。 |
网友评论