美文网首页
爬虫啦(node)

爬虫啦(node)

作者: heheheyuanqing | 来源:发表于2017-09-23 10:30 被阅读31次

在同学的建议下我开始学习如何抓取一个网页,获取网页上的信息。

https://book.douban.com/ [豆瓣读书]

获取书名

HTTPS和cheerio模块实现

  • 通过HTTPS模块进行获取整个HTML页面
      //使用get方法发送请求
https.get(url,function (res) {
   var html = '';
   res.on('data',function (data) {
        html +=data;
   });
    res.on('end',function () {
        console.log(html);
    });
}).on('error',function () {
    console.log('爬取页面错误');
});
  • 分析所要获取的信息
警察 父亲的失乐园
可见所有的书籍的名称都在class为title的div中,以及a标签中
  • 通过cheerio模块进行对获取到的html进行分析
      //封装在crawleChapter函数中
function crawleChapter(html) {
    var $ = cheerio.load(html);
    var books = $('.title');//获取class为title的div
    var data = [];

    books.map(function (node) {
        var books = $(this);
        var booksName = books.find('a').text().trim();//遍历div,获取a标签的文本即书籍的书名信息

data.push(booksName);
    });
    console.log(data);
}

superagent模块

可以使用superagent模块来进行与服务器的交互

superagent.get(url)
        .end(function (err, res) {
          //请求成功之后进行的解析html文件
        });

相关文章

  • 爬虫啦(node)

    在同学的建议下我开始学习如何抓取一个网页,获取网页上的信息。 https://book.douban.com/ [...

  • node爬虫之路(一)

    最近对爬虫很感兴趣,我们node.js也是可以写爬虫。所以写一个node爬虫系列,记录我的爬虫之路,感兴趣的同学可...

  • node爬虫快速入门

    node爬虫 初入前端,刚刚接触node,对于耳闻已久的node爬虫非常神往,所以有了这篇文章,项目代码在文章末尾...

  • node入门场景之——爬虫

    边做边学效率更高,爬虫是node的适用场景之一,关于爬虫的另一篇文章node爬虫进阶之——登录为了验证“经验总结、...

  • node 爬虫

    clawer.js

  • node爬虫

    node爬虫用到的第三方模块 Cheerio 服务端的jQueryhttps://segmentfault.c...

  • Node爬虫

    使用cheerio爬虫模块抓取页面后获取元素信息跟jQuery基本一样

  • node爬虫

    /** 教程:https://blog.csdn.net/Qc1998/article/details/83154...

  • node 爬虫

  • node爬虫

    声明:所有文章都是转载整理的,只是为了自己学习,方便自己观看,如有侵权,请立即联系我,谢谢~ Node.js的学习...

网友评论

      本文标题:爬虫啦(node)

      本文链接:https://www.haomeiwen.com/subject/hmblsxtx.html