NodeJS 爬虫

作者: infoyou | 来源:发表于2019-08-13 14:57 被阅读0次

nodeJS爬虫（完整版）
nodejs通过钉钉群机器人推送消息
NodeJs + Phantomjs 简易爬虫
Nodejs爬虫
NodeJS 爬虫
nodejs爬虫
nodejs 爬虫
nodejs - 爬虫
nodejs爬虫
2018-12-06-项目

技术栈
cheerio: 将抓取的html直接转化为jquery对象，可以直接对获取信息进行DOM操作。
puppeteer: Puppeteer是谷歌官方出品的一个通过DevTools协议控制headless Chrome的Node库。可以通过Puppeteer的提供的api直接控制Chrome模拟大部分用户操作来进行UI Test或者作为爬虫访问页面来收集数据。

https://nodejs.org/dist/v10.16.2/node-v10.16.2.pkg

https://github.com/GoogleChrome/puppeteer

npm i puppeteer

default.js

const path = require('path')

module.exports = {
screenshot: path.resolve(__dirname, '../screenshot')
}

crawler.js

const puppeteer = require('puppeteer');
const {screenshot} = require('./config/default');

(async () => {
const browser = await puppeteer.launch();
const page = await browser.newPage();
await page.goto('http://news.baidu.com/');

console.log('Date:', Date.now()); //Date

await page.screenshot({
path: ${screenshot}/${Date.now()}.png
});

await page.pdf({
path: ${screenshot}/${Date.now()}.pdf, format: 'A4'
});

await browser.close();
})();

网友评论

本文标题：NodeJS 爬虫

本文链接：https://www.haomeiwen.com/subject/opzvjctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

NodeJS 爬虫

https://nodejs.org/dist/v10.16.2/node-v10.16.2.pkg

https://github.com/GoogleChrome/puppeteer

npm i puppeteer

default.js

crawler.js

相关文章

nodeJS爬虫（完整版）

nodejs通过钉钉群机器人推送消息

NodeJs + Phantomjs 简易爬虫

Nodejs爬虫

NodeJS 爬虫

nodejs爬虫

nodejs 爬虫

nodejs - 爬虫

nodejs爬虫

2018-12-06-项目

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读