美文网首页
NodeJS 爬虫

NodeJS 爬虫

作者: infoyou | 来源:发表于2019-08-13 14:57 被阅读0次

技术栈
cheerio: 将抓取的html直接转化为jquery对象,可以直接对获取信息进行DOM操作。
puppeteer: Puppeteer是谷歌官方出品的一个通过DevTools协议控制headless Chrome的Node库。可以通过Puppeteer的提供的api直接控制Chrome模拟大部分用户操作来进行UI Test或者作为爬虫访问页面来收集数据。

https://nodejs.org/dist/v10.16.2/node-v10.16.2.pkg
https://github.com/GoogleChrome/puppeteer
npm i puppeteer
default.js

const path = require('path')

module.exports = {
screenshot: path.resolve(__dirname, '../screenshot')
}

crawler.js

const puppeteer = require('puppeteer');
const {screenshot} = require('./config/default');

(async () => {
const browser = await puppeteer.launch();
const page = await browser.newPage();
await page.goto('http://news.baidu.com/');

console.log('Date:', Date.now()); //Date

await page.screenshot({
path: ${screenshot}/${Date.now()}.png
});

await page.pdf({
path: ${screenshot}/${Date.now()}.pdf, format: 'A4'
});

await browser.close();
})();

相关文章

  • nodeJS爬虫(完整版)

    nodeJs爬虫

  • nodejs通过钉钉群机器人推送消息

    nodejs 通过钉钉群机器人推送消息 Intro 最近在用 nodejs 写爬虫,之前的 nodejs 爬虫代码...

  • NodeJs + Phantomjs 简易爬虫

    NodeJs + Phantomjs 简易爬虫 爬虫是什么? 引用百度百科的说法是: 如何在NodeJs上搭建爬虫...

  • Nodejs爬虫

    Node.js批量抓取高清妹子图片:https://cnodejs.org/topic/54bdaac4514ea...

  • NodeJS 爬虫

    技术栈cheerio: 将抓取的html直接转化为jquery对象,可以直接对获取信息进行DOM操作。puppet...

  • nodejs爬虫

    nodejs相关模块 获取网页内容(http\request\superagent等) 筛选网页信息(cheeri...

  • nodejs 爬虫

    爬取的是豆瓣网 本次将会用到两个库:superagent 和cheerio 其中 superagent是用来请求目...

  • nodejs - 爬虫

    继续上一篇写下爬虫的实现,网上找了一个爬虫的文章,然后从里面找了一个网址,https://www.lanvshen...

  • nodejs爬虫

    一、Puppeteer Puppeteer 提供了一系列的 API,可以在无 UI 的情况下调用 Chrome 的...

  • 2018-12-06-项目

    nodejs爬虫:https://github.com/adolt/xmfish-crawler

网友评论

      本文标题:NodeJS 爬虫

      本文链接:https://www.haomeiwen.com/subject/opzvjctx.html