美文网首页
nodejs爬虫

nodejs爬虫

作者: 宋song一 | 来源:发表于2020-01-06 17:47 被阅读0次

一、Puppeteer

Puppeteer 提供了一系列的 API,可以在无 UI 的情况下调用 Chrome 的各种功能,适用于爬虫、自动化处理等各种情景
文档
中文api文档
英文api文档

// Node:使用Puppeteer完成一次复杂的爬虫(有错误)

玩玩puppeteer,实现一个小‘爬虫’

Puppeteer 初探
Puppeteer的入门教程和实践
爬虫
puppeteer爬虫

Rize文档Rize 是一个提供顶层的、流畅并且可以链式调用的 API 的库,它能让您简单地使用 puppeteer。
轮子:一个简单的node爬虫踩坑之路
Node.js爬取妹子图

二、Node Crawler

http://nodecrawler.org/
中文文档

Node Crawler 使用说明
https://github.com/755966092/node-crawler-yiche/blob/master/crawler/yiche.js
node-crawler 异步 Promise 和 Promise.all 实现

var Crawler = require("crawler");
const c = new Crawler({
  maxConnections : 10
});

// 所有爬虫链接
const urls = ['https://cn.bing.com/', 'https://cn.bing.com/'];

let promiseList = [];
urls.forEach(v => {
  promiseList.push(spiderItem(v));
})

// 使用Promise.all
Promise.all(promiseList).then(ress => {
  // 所有爬虫链接爬虫完成时调用
  console.log(ress)
})

function spiderItem(url) {
  return new Promise((resolve, reject) => {
    c.queue([{
      uri: url,
      jQuery: true,
      callback: function (error, res, done) {
        if (error) {
          reject(error);
        } else {
          resolve(res)
        }
        done();
      }
    }]);
  })
}

NodeJS插件Crawler参数手册

crawler.queue({
        uri: 'https://www.huobiinfo.com/flash/',  
        headers: {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'},
})

查询浏览器的user-agent?

  1. 在浏览器的地址栏输入:
    javascript:alert(navigator.userAgent)

WebSocket

相关文章

  • nodeJS爬虫(完整版)

    nodeJs爬虫

  • nodejs通过钉钉群机器人推送消息

    nodejs 通过钉钉群机器人推送消息 Intro 最近在用 nodejs 写爬虫,之前的 nodejs 爬虫代码...

  • NodeJs + Phantomjs 简易爬虫

    NodeJs + Phantomjs 简易爬虫 爬虫是什么? 引用百度百科的说法是: 如何在NodeJs上搭建爬虫...

  • Nodejs爬虫

    Node.js批量抓取高清妹子图片:https://cnodejs.org/topic/54bdaac4514ea...

  • NodeJS 爬虫

    技术栈cheerio: 将抓取的html直接转化为jquery对象,可以直接对获取信息进行DOM操作。puppet...

  • nodejs爬虫

    nodejs相关模块 获取网页内容(http\request\superagent等) 筛选网页信息(cheeri...

  • nodejs 爬虫

    爬取的是豆瓣网 本次将会用到两个库:superagent 和cheerio 其中 superagent是用来请求目...

  • nodejs - 爬虫

    继续上一篇写下爬虫的实现,网上找了一个爬虫的文章,然后从里面找了一个网址,https://www.lanvshen...

  • nodejs爬虫

    一、Puppeteer Puppeteer 提供了一系列的 API,可以在无 UI 的情况下调用 Chrome 的...

  • 2018-12-06-项目

    nodejs爬虫:https://github.com/adolt/xmfish-crawler

网友评论

      本文标题:nodejs爬虫

      本文链接:https://www.haomeiwen.com/subject/kuwkactx.html