用Nodejs爬取Matrix67的博客

作者: 一个灰 | 来源:发表于2018-09-19 23:19 被阅读0次

用Nodejs爬取Matrix67的博客
用python网络爬虫爬取英雄联盟英雄图片
爬虫篇（2）——爬取博客内容
nodejs + cheerio 爬取极客学院的nodejs课程
爬取Python教程博客并转成PDF
python多进程、多线程及协程爬虫速度比较
python数据提取工具beautifulsoup教程2爬虫实例
用nodejs爬取googlePlay前台内容
Python 实战项目
Python爬虫教程【22】：scrapy爬取酷安网全站应用

Matrix67 有大量好玩的内容，可惜作者一直使用这个奇怪的博客，没有索引分类什么的，只有一页页看，我一气之下写了一个爬虫，把所有文章链接和标题打印了出来。供大家方便查看。

用到了got库——一个轻量级请求http的库
jsdom库——用来在node端解析HTML的DOM结构的库

const got = require('got')
const { JSDOM } = require("jsdom");
var i = 1
function startCatch(){
    i++
    got('http://www.matrix67.com/blog/page/'+i).then(v=>{
        const dom = new JSDOM(v.body)
        const nodeList = dom.window.document.querySelectorAll('.entry-title')
    for(let el of nodeList){
        console.log(el.innerHTML)
    }
        startCatch()
    })
}
startCatch()

有人看出这个程序是个无限递归程序。其实