（Node mongo系列）Puppeteer爬取网页数据并写入

作者: 梦想成真213 | 来源:发表于2019-04-25 10:51 被阅读0次

（Node mongo系列）Puppeteer爬取网页数据并写入
2-urilib库基础
node利用puppeteer实现数据爬取
百度百聘-python爬虫实践
2018-06-15
Puppeteer之爬虫入门
【评论】一个PowerQuery爬取网页数据教程的疑惑之处
使用nodejs插件puppeteer简单爬取网页数据
Python 爬虫去掉爬取数据中的\xa0 \t \n
node puppeteer爬虫，爬取微博热搜数据

官方介绍

在浏览器中手动执行的绝大多数操作都可以使用Puppeteer来完成！下面是一些示例：

生成页面 PDF。
抓取 SPA（单页应用）并生成预渲染内容（即“SSR”（服务器端渲染））。
自动提交表单，进行 UI 测试，键盘输入等。
创建一个时时更新的自动化测试环境。使用最新的 JavaScript 和浏览器功能直接在最新版本的Chrome中执行测试。
捕获网站的 timeline trace，用来帮助分析性能问题。
测试浏览器扩展。

实践

通过Puppeteer的api来实例化一个browser，然后新建一个page，打开一个url地址，渲染完成之后，模拟在console面板操作dom，来获取想要的数据。
新建一个index.js文件，拿到数据之后讲数据写入文件curse-list.json文件中，代码如下：

//index.js
//用puppeteer来模拟浏览器操作拿到前端免费课程的列表，第一页
const puppeteer = require('puppeteer');
const fs = require('fs');
const imoocUrl = 'https://www.imooc.com/course/list?c=fe';
;(async () => {
    const browser = await puppeteer.launch();
    const page = await browser.newPage();
    console.log('start open url:',imoocUrl);
    await page.goto(imoocUrl);
    
    //操作数据
    console.log('operate dom by console');
    const result = await page.evaluate(() => {
        let $ = window.$;
        let data = [];
        let courseList = $('.moco-course-list').find('.course-card-container');
        if(courseList.length > 1){
            courseList.each((index,item) => {
                let item_a = $(item).find('a');
                let tags = [];
                let labels = item_a.find('.course-label label');
                if(labels.length > 0){
                    labels.each((index,item) => {
                        tags.push($(item).text());
                    })
                }
                let content = item_a.find('.course-card-content');
                let title = content.find('.course-card-name').text();
                let card = content.find('.course-card-info span');
                let level = $(card[0]).text();
                let desc = content.find('.course-card-desc').text();
                data.push({
                    title,
                    tags: tags.join(','),
                    level,
                    desc
                });
            })
        }
        return data;
    });

    await browser.close();
    console.log('打印数据','\n',result);

    //将数据写入到文件中，通过fs模块
    let apiData = {
        data: result,
        code: 0,
        message: 'success'
    }
    fs.writeFile('course-list.json',JSON.stringify(apiData,null,'\t'));
})();

运行命令：
node index.js
然后打开json文件，数据已经被写入到文件中。