美文网首页
抓取网页工具querylist的使用简介

抓取网页工具querylist的使用简介

作者: Dargonfly429 | 来源:发表于2018-06-18 14:25 被阅读0次

    querylist的使用

    首先,querylist是时下php最先进的dom采集包之一,而且是国人写的,中文文档很好,如果想用好,应该直接看一遍官方文档

    我这里简单记录下我对querylisty使用的理解。目标是用一篇文章解释如何使用。方便我超过2个月后回忆....

    操作流程

    主要分为三步

    1. 载入资源
    2. 筛选目标
    3. 读取结果

    举例:

    <?php
    require 'QueryList/vendor/autoload.php';
    use QL\QueryList;
    $html = <<<STR
    <div id="one">
        <div class="two">
            <a href="http://querylist.cc">QueryList官网</a>
            <img src="http://querylist.com/1.jpg" alt="这是图片">
            <img src="http://querylist.com/2.jpg" alt="这是图片2">
        </div>
        <span>其它的<b>一些</b>文本</span>
    </div>        
    STR;
    $rules = array(
        'text' => array('#one','text'),
        'link' => array('.two>a','href'),
        'img' => array('.two>img:eq(1)','src'),
        'other' => array('span','html')
    );
    
    $data = QueryList::html($html)  // 1.载入资源
            ->rules($rules)         // 2.筛选目标之输入筛选规则
            ->query()               // 2.筛选目标之执行筛选
            ->getData();            // 3.读取结果
    print_r($data->all());          // 3.读取结果之转换格式
    

    我们需要了解的就是每一步具体有那些更细的方法?主要第二步筛选,怎么用?

    载入资源

    $html = file_get_contents('https://querylist.cc/');

    方法 说明
    html() $ql = QueryList::html($html);
    setHtml($html) 作用同上
    $ql->setHtml($html);
    getHtml() 获取设置的待采集的html源码
    $data = $ql->getHtml();
    get() get插件,用来轻松获取网页。该插件基于GuzzleHttp,请求参数与它一致。

    筛选目标

    //html源码
    $html='';
    
    //采集规则
    $rules = [];
    
    //设置规则和执行筛选
    $ql = QueryList::html($html)->rules($rules)->query();
    
    //读取结果
    $data = $ql->getData();
    print_r($data->all());
    
    方法 说明
    rules($arr) 设置筛选规则,是一个数组,看下面详细介绍和举例
    range() 这个是rules的补充,看文档代码就明白了
    removeHead() 移除页面头部head区域,乱码终极解决方案,采集出现不可解决的乱码问题的时候,可以尝试调用这个方法来解决乱码问题。
    query() 执行采集规则rules,执行完这个方法后才可以用getData()方法获取到采集数据。

    rules单独说明

    //采集规则
    $rules = array(
       '规则名' => array('jQuery选择器','要采集的属性'[,"标签过滤列表"][,"回调函数"]),
       '规则名2' => array('jQuery选择器','要采集的属性'[,"标签过滤列表"][,"回调函数"]),
        ..........
    );
    
    rules字段 说明
    规则名 不要重复 随便写
    jQuery选择器 jq会不
    要采集的属性 - text:返回当前选中标签下面的纯文本
    - html:返回当前选中标签下面的html片段
    - [HTML标签属性]:如src、href、name、data-src等任意HTML标签属性名
    标签过滤列表 设置此选项可用来过滤不想要的内容,多个值之间用空格隔开,有如下2条规则:
    - 当标签名前面添加减号(-)时(此时标签可以为任意的jQuery选择器),表示移除该标签以及标签内容。
    - 当标签名前面没有减号(-)时,当 [要采集的属性] 值为text时表示需要保留的HTML标签以及内容,为html时表示要过滤掉的HTML标签但保留内容。
    回调函数

    举例:

    $rules = [
        'link' => ['a','href'],
        'content' => ['.article','html','-.ad1 -.ad2']
    ];
    

    读取结果

    方法 说明
    getData() 返回值为Laravel中Collection集合对象,通过它的all()方法可转为数组。

    相关文章

      网友评论

          本文标题:抓取网页工具querylist的使用简介

          本文链接:https://www.haomeiwen.com/subject/cjjneftx.html