利用Node写一只小爬虫爬一爬简书

作者: Abson在简书 | 来源:发表于2015-12-29 17:49 被阅读1448次

利用Node写一只小爬虫爬一爬简书
Python实践与学习索引
简单的 nodejs 爬虫
爬煎蛋网妹子图
node.js爬虫爬取拉勾网职位信息
python-爬虫学习（文字、图片、视频）
python爬虫学习（文字、图片、视频）
抖音爬虫教程，python爬虫采集反爬策略
新手向爬虫（二）站点分析
Python学习

不知不觉中经过了1年了，这一年很快，也给我带来了很多转变，这一年很累，也给我带来更多的知识。确实是很累呀，回想起每晚都在瞎搞搞，到两三点精疲力尽的时候才去睡觉，不过收获也是巨大的，特别我的肚子也在不知不觉由腹肌变成了小肚子0 0，这是我很悲伤的一个故事。

好了，不扯了，这也不是我的风格，今天给大家来点干货，用用 Node.js (以下简称 Node)来写一写小爬虫来爬一爬简书。
首先来接受一下 Node

有看我博客的人也知道我是做 IOS 开发的，但是为什么今天突然来写 Node 呢？个人感觉吧，做什么开发也好，会点后台也不会吃亏，毕竟网络层的东西，多了解一下总是好的。说不定以后自己要做个应用什么的，起码不会烦恼怎么做后台吧。

那么写爬虫有什么好处呢，最起码你写的应用需要的数据都能给你找回来吧，显示个图片什么的都是要数据的吧。那么用 Node 写爬虫的好处有什么呢，为什么要选择 Node 呢？1.写 Node 用的是 JavaScript，而 JavaScript 又是前端交互中经常用到的，所以我们的学习开发成本会降低，一方面练习了 JavaScript 语法，另一方面又能开发后台，一举两得； 2.Node 的效率就是它的优点了，由于Node的网络是异步的，所以基本如同几百个进程并发一样强大，内存和CPU占用非常小。

那么说了这么多，就是想告诉大家 Node 其实并没有想象中那么差。好了，开始我们今天的代码了

首先我们要下载 Node 这个家伙了，下载完后只要简单的几步安装步骤就可以了。
那么我们还需要一个编辑器，当然你也可以使用系统有的文本编辑器，但是在这里我个人来说就选择了 Atom 这款编辑器了，它一方面是高仿 sublineText ，只要熟悉 sublineText 的小伙伴就能很快上手了，另一方面是它的界面设计真心不错，很吸引我，而且下载第三方包的工具是自带的 apm(atom package manage) 很不错。

以下是我们需要爬的 html 结构了

html 结构

很乱的说有木有，但是，相信大家，越难的东西才是我们应该挑战的嘛

1.创建 shujian.js 文件

2.引入我们需要的模块

// 引入 node 的网络模块，这个模块对 node 来说很重要
var http = require('http');
// 引入 `cheerio` 这个模块，gitHub 上有介绍，它就是一个服务端的 JQuery  库
var cheerio = require('cheerio');
// 以下这个 url 是我个人主页的，请使用的小伙伴换一下自己的主页喔
var url =   'http://www.jianshu.com/users/53fb509bd05c/latest_articles';

3.进行一次 get的请求并对返回的 html 字符串进行解析

http.get(url, function(res){
// 用于拼接接受到的 html 字符串
var html = '';
// on 是 node 的一个监听事件
res.on('data', function(data) {
  html += data;
});

res.on('end', function() {
    // 解析 html 字符串的方法，返回文章数据的对象
     var articlesData = filterChapter(html);
    // 输出这个对象的属性
      printArticleInfo(articlesData);
  });
}).on('error', function(){
  console.log('个人主页数据失败');
});

4.解析 html 字符串的方法，返回文章数据的对象数组

function filterChapter(html) {
var $ = cheerio.load(html);
var articleList = $('.article-list').children('li');

// 创建一个空数组，用来装载我们的文章对象
var articlesData = [];
articleList.each(function(item) {
  // 以下 JQ 的方法，相信会一点 JQ 的人都能看懂啦，哈
  var article = $(this);
  var title = article.find('div').find('.title').find('a').text();
  var span =  article.find('div').find('div.list-footer').find('span');
  var loveCount = span.text();
  // .eq(i) 通过索引筛选匹配的元素。使用.eq(-i)就从最后一个元素向前数。
  var readCount = span.parent().find('a').eq(0).text();

 // 因为我们只要 喜欢的数量，并不想要这两个字，所以用 JS 的方法把它去掉了，以下阅读二字也是一样的
  var loveNum = parseFloat(loveCount.substring(loveCount.search('喜欢') + '喜欢'.length)) ;
  var readNum = parseFloat(readCount.substring(readCount.search('阅读') + '阅读'.length));

 // 创建文章对象，JS 的对象确实跟 json 的很像呀
var articleData = {
    title : title, 
    love  : loveNum.toString(),
    readCount : readNum.toString()
};
  articlesData.push(articleData);
});
  return articlesData;
}

5.将这个文章数组内的文章对象转换成字符串输出

function printArticleInfo(articlesData) {
console.log('止于浮水的简书 ：\n');
articlesData.forEach(function(item) {
  var title = item.title;
  var loveCount = item.love;
  var readCount = item.readCount;
  console.log('《' + title + '》' + ' \n ' + '阅读数为: ' + readCount  +   '\n'  + '喜欢数为:'  + loveCount + '\n');
  });
}

好了，写了以上代码，现在需要跑一跑了，打开终端 输入 node jianshu.js

以下就是我的输出了

好了，到这里我们的简书小爬虫就完成了，根据这些方法，你可以去爬一些更多数据的网页，甚至可以写更多更多的爬虫同时去爬取数据，让你再创造 app 的时候不再惧怕没有数据这块了。当然，这些数据需要一个数据库，这就是我以后要告诉小伙伴们的事情了。

@end

心如止水，奋力前行

利用Node写一只小爬虫爬一爬简书
不知不觉中经过了1年了，这一年很快，也给我带来了很多转变，这一年很累，也给我带来更多的知识。确实是很累呀，回想起每...
Python实践与学习索引
爬虫小专栏—爬取广州二手房信息小专栏—爬虫模块化小专栏—广度优先爬虫小专栏—爬取某个用户的所有微博包简书—pandas
简单的 nodejs 爬虫
简单的 nodejs 爬虫最近想用 node 写爬虫，然后将爬取的数据存入 mongodb。一开始想用 phan...
爬煎蛋网妹子图
利用 BeautifulSoup + Requests 爬取煎蛋网妹子图一、爬煎蛋网一页图片此爬虫只能爬取...
node.js爬虫爬取拉勾网职位信息
简介用node.js写了一个简单的小爬虫，用来爬取拉勾网上的招聘信息，共爬取了北京、上海、广州、深圳、杭州、西安...
python-爬虫学习（文字、图片、视频）
爬虫-文字爬取爬虫-图片爬取爬虫-视频爬取
python爬虫学习（文字、图片、视频）
爬虫-文字爬取爬虫-图片爬取爬虫-视频爬取
抖音爬虫教程，python爬虫采集反爬策略
抖音爬虫教程，python爬虫采集反爬策略一、爬虫与反爬简介爬虫就是我们利用某种程序代替人工批量读取、获取网站上的...
新手向爬虫（二）站点分析
在新手向爬虫（一）利用工具轻松爬取简书并分析中我们初步接触了爬虫，关键在于：通过工具获取网页内容选择器分析页面...
Python学习
python爬虫(五) python爬虫爬取豆瓣电影Top250数据利用python爬取豆瓣电影TOP250页面...