美文网首页
爬虫应用示例--puppeteer数据抓取的实现方法

爬虫应用示例--puppeteer数据抓取的实现方法

作者: 工程师54 | 来源:发表于2021-08-08 16:25 被阅读0次

    一、背景

    软件机器人自动化(RPA)技术近两年来应用越来越广泛,市面上也有比较多成熟的RPA产品。

    利用puppeteer实现的RPA,可以实现远程数据自动抓取的爬虫应用功能。

    二、需求描述

    在一个指定的远程网站上,通过RPA输入查询条件执行查询后显示出结果清单,获取这个清单中的数据后执行翻页,直至取到全部数据为止。

    三、实现思路

    Puppeteer 是一个node库,内含了一个chrome浏览器(正是因为包含了这个导致安装非常麻烦),以及一组用来操纵Chrome的API。因此基于Puppeteer实现RPA就非常简单了,有了RPA我们就可以模拟手工操作进行远程数据的自动抓取,而这恰恰就是网络爬虫要实现的功能。

    实现以上思路的基本流程为:
    1、打开内含的chrome浏览器
    2、进入指定的网站
    3、找到条件输入框,输入查询条件(查询条件包括input、select,所以识别和处理方式并不相同)
    4、点击查询按钮,执行查询,结果以分页方式显示
    5、取到第一页的全部数据
    6、检测是否有下一页数据,如果有则点击下一页的按钮
    7、重复5、6两步直至结果的所有页面都获取完毕
    8、多获取到的数据进行后续加工处理

    四、代码示例

    import puppeteer from 'puppeteer'    //引入puppeteer组件
    。。。。。。
    puppeteer.launch({启动参数}).then(async browser => {
        let page = await browser.newPage();      //在chrome中打开一个标签页
        await page.setJavaScriptEnabled(true);   
         await page.goto("远程网络地址");         //在该标签页上打开指定网址,如www.baidu.com
         let companyName = await page.$("#aa");    //输入条件是一个input,id="aa"
          await companyName.focus();          
          await page.keyboard.type("华为");     //在该input中输入查询条件,如"华为"
          await page.waitFor('#bb');              //输入条件是一个select,id="bb"
          await page.select('#bb','11');          //select的列表中有一个选择项value=11,自动选择value=11的选择项作为该输入条件的值
          let btnSearch = await page.$("#cc");    //执行查询的按钮是一个button,id="cc"
          await btnSearch.click();                     //自动点击该按钮,触发该按钮的click事件
           let btnNext = {} ;                             //下面开始处理结果集合
           do{          
               await page.waitFor('#table1');     //结果结合显示在一个table中,其id="table1"
               let data1 = await page.$$eval('# table1 tr', tds => tds.map((tr) => {
                     return tr.innerText.split('\t');
                }));      //当前页得所有数据都保存在data1中, data1是一个二维数组,data1[i]存储每一行数据,data1[i][j]存放第1行得第j列数据。
               btnNext = await page.$eval("#btnNext",obj => obj.href);   //下一页放在一个id=btnNext的a中,这个功能是获取下一页这个超链的跳转地址,如果还有下一页则结果就是跳转地址,如果没有下一页,则返回空
                if(btnNext){                 //有下一页的处理
                     btnNext = await page.$("#btnNext");   
                     await btnNext.click();          // 自动点击下一页的a,触发该a的click事件
                 };
              } while(btnNext) ;
           。。。。。处理采集的数据
           await browser.close();    //关闭浏览器
    });

    五、后续

    以上实现思路好理解,具体实现代码是个难点,不过通过上面的代码示例就可以轻松解决这个难点。

    遗留的另外一个难点就是puppeteer组件的安装问题,具体另文再详细讲解。

    相关文章

      网友评论

          本文标题:爬虫应用示例--puppeteer数据抓取的实现方法

          本文链接:https://www.haomeiwen.com/subject/wvhovltx.html