美文网首页
node.js写一个爬虫

node.js写一个爬虫

作者: 无迹落花 | 来源:发表于2018-03-22 18:17 被阅读38次

    引入

    cheerio 模块 ,node.js 版的jquery
    https 模块,封装了一个http服务器和一个简易的http客户端
    iconv-lite 模块, 可能需要解决的不同页面编码不一样 utf8,gb2312

    var cheerio=require('cheerio')
    var https=require('https')
    var iconv=require('iconv-lite')
    var path=require('path')
    
    var url='https://www.jianshu.com/p/79adf1f8ebc7'
    
    https.get(url,(res)=>{
        var chunks=[]
        res.on('data',(chunk)=>{
            chunks.push(chunk)
        })
    
        res.on('end',(res)=>{
            var titles=[]
            var html=iconv.decode(Buffer.concat(chunks),'utf8')
    
            var $=cheerio.load(html,{decodeEntities:false})
    
    
            $('p').each((idx,element)=>{
                var $element=$(element)
                titles.push({
                    title:$element.text()
                })
            })
              console.log(titles)
        })
    })
    
    
    
    node.jpg

    准备去爬 https://www.jianshu.com/p/79adf1f8ebc7这篇文章下面的评论的,结果爬出来的是整个文章

    相关文章

      网友评论

          本文标题:node.js写一个爬虫

          本文链接:https://www.haomeiwen.com/subject/lofzqftx.html