不知不觉中经过了1年了,这一年很快,也给我带来了很多转变,这一年很累,也给我带来更多的知识。确实是很累呀,回想起每晚都在瞎搞搞,到两三点精疲力尽的时候才去睡觉,不过收获也是巨大的,特别我的肚子也在不知不觉由腹肌变成了小肚子0 0,这是我很悲伤的一个故事。
好了,不扯了,这也不是我的风格,今天给大家来点干货,用用 Node.js
(以下简称 Node
)来写一写小爬虫来爬一爬简书。
首先来接受一下 Node
有看我博客的人也知道我是做 IOS
开发的,但是为什么今天突然来写 Node
呢?个人感觉吧,做什么开发也好, 会点后台也不会吃亏,毕竟网络层的东西,多了解一下总是好的。说不定以后自己要做个应用什么的,起码不会烦恼怎么做后台吧。
那么写爬虫有什么好处呢,最起码你写的应用需要的数据都能给你找回来吧,显示个图片什么的都是要数据的吧。那么用 Node
写爬虫的好处有什么呢,为什么要选择 Node
呢?1.写 Node
用的是 JavaScript
,而 JavaScript
又是前端交互中经常用到的,所以我们的学习开发成本会降低,一方面练习了 JavaScript
语法,另一方面又能开发后台,一举两得; 2.Node
的效率就是它的优点了,由于Node
的网络是异步的,所以基本如同几百个进程并发一样强大,内存和CPU占用非常小。
那么说了这么多,就是想告诉大家 Node
其实并没有想象中那么差。好了,开始我们今天的代码了
首先我们要下载 Node 这个家伙了,下载完后只要简单的几步安装步骤就可以了。
那么我们还需要一个编辑器,当然你也可以使用系统有的文本编辑器,但是在这里我个人来说就选择了 Atom 这款编辑器了,它一方面是高仿 sublineText
,只要熟悉 sublineText
的小伙伴就能很快上手了,另一方面是它的界面设计真心不错,很吸引我,而且下载第三方包的工具是自带的 apm
(atom package manage) 很不错。
以下是我们需要爬的 html 结构了
![](https://img.haomeiwen.com/i1073278/0be672f5526fcb8e.png)
很乱的说有木有,但是,相信大家,越难的东西才是我们应该挑战的嘛
1.创建 shujian.js 文件
2.引入我们需要的模块
// 引入 node 的网络模块,这个模块对 node 来说很重要
var http = require('http');
// 引入 `cheerio` 这个模块,gitHub 上有介绍,它就是一个服务端的 JQuery 库
var cheerio = require('cheerio');
// 以下这个 url 是我个人主页的,请使用的小伙伴换一下自己的主页喔
var url = 'http://www.jianshu.com/users/53fb509bd05c/latest_articles';
3.进行一次 get
的请求并对返回的 html 字符串进行解析
http.get(url, function(res){
// 用于拼接接受到的 html 字符串
var html = '';
// on 是 node 的一个监听事件
res.on('data', function(data) {
html += data;
});
res.on('end', function() {
// 解析 html 字符串的方法,返回文章数据的对象
var articlesData = filterChapter(html);
// 输出这个对象的属性
printArticleInfo(articlesData);
});
}).on('error', function(){
console.log('个人主页数据失败');
});
4.解析 html 字符串的方法,返回文章数据的对象数组
function filterChapter(html) {
var $ = cheerio.load(html);
var articleList = $('.article-list').children('li');
// 创建一个空数组,用来装载我们的文章对象
var articlesData = [];
articleList.each(function(item) {
// 以下 JQ 的方法,相信会一点 JQ 的人都能看懂啦,哈
var article = $(this);
var title = article.find('div').find('.title').find('a').text();
var span = article.find('div').find('div.list-footer').find('span');
var loveCount = span.text();
// .eq(i) 通过索引筛选匹配的元素。使用.eq(-i)就从最后一个元素向前数。
var readCount = span.parent().find('a').eq(0).text();
// 因为我们只要 喜欢的数量,并不想要这两个字,所以用 JS 的方法把它去掉了,以下阅读二字也是一样的
var loveNum = parseFloat(loveCount.substring(loveCount.search('喜欢') + '喜欢'.length)) ;
var readNum = parseFloat(readCount.substring(readCount.search('阅读') + '阅读'.length));
// 创建文章对象,JS 的对象确实跟 json 的很像呀
var articleData = {
title : title,
love : loveNum.toString(),
readCount : readNum.toString()
};
articlesData.push(articleData);
});
return articlesData;
}
5.将这个文章数组内的文章对象转换成字符串输出
function printArticleInfo(articlesData) {
console.log('止于浮水的简书 :\n');
articlesData.forEach(function(item) {
var title = item.title;
var loveCount = item.love;
var readCount = item.readCount;
console.log('《' + title + '》' + ' \n ' + '阅读数为: ' + readCount + '\n' + '喜欢数为:' + loveCount + '\n');
});
}
好了,写了以上代码,现在需要跑一跑了,打开终端
输入 node jianshu.js
以下就是我的输出了
![](https://img.haomeiwen.com/i1073278/6811607ccc8ef0a3.png)
好了,到这里我们的 简书小爬虫就完成了,根据这些方法,你可以去爬一些更多数据的网页,甚至可以写更多更多的爬虫同时去爬取数据,让你再创造 app 的时候不再惧怕没有数据这块了。当然,这些数据需要一个数据库,这就是我以后要告诉小伙伴们的事情了。
@end
网友评论