准备
- 安装node.js开发环境(略过,不知道的请google);
- 了解cheerio库,英文好的点这,英文没那么好的点这
- 熟悉async(非必须),只是我比较喜欢用这个,之前写过一篇博客,大家可以看下
- 了解node.js HTTP模块
查看页面结构
明确数据抓取页
这一步是为了分析你要抓数据的可行性,说白了就是看查看页面源代码分析其dom节点。在这里我们以58同城的租房栏最为目标数据抓取页。
分析dom节点
大家可以看源代码,我们要抓取的数据都是包含在一个一个table标签里面,table下面的每一个tr都是一条目标数据。
编码
这里先把代码放上--gist,以便大家可以对照看下面的讲解。
ok,下面进入最重要的一步,编码
我们使用的是node.js http get
请求;
获取你要抓取的总页数
(你总不能抓一页就完事吧,要抓完)
function getPageNum(callback){
var options = {
host: host,
port: 80,
path: path,
headers: {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/33.0.1750.117 Safari/537.36'
}
};
var html = ""
http.get(options,function (res) {
res.on('data', function (data) {
html += data;
});
res.on('end', function () {
var $ = cheerio.load(html);
var pagenum=$('.pager').find('a').length;
var pager=$('.pager').find('a').eq(pagenum-2).text();
callback(undefined,pager);
});
}).on('error', function (e) {
callback(e);
})
}
上面我们定义了一个方法,发送http请求获取总的页数,
大部分都是http get请求的代码。核心代码:
var $ = cheerio.load(html);
var pagenum=$('.pager').find('a').length;
var pager=$('.pager').find('a').eq(pagenum-2).text();
在这一行里,大家可以查看页面源代码,发现其在 class:pager
的标签里包含着页数,而其中包含着好多a标签。而总页码数位于倒数第二个a标签中所以在上面我们可以获取总页数。
抓取数据
先上代码
function gettitle(path2,callback){
var options = {
host: host,
port: 80,
path: path+path2,
headers: {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/33.0.1750.117 Safari/537.36'
}
};
var html = ""
http.get(options,function (res) {
res.on('data', function (data) {
html += data;
});
res.on('end', function () {
var $ = cheerio.load(html);
$('.main').find('table').find('tr').each(function(i,ele){
title.push($(this).find('h1').find('a').text().trim());
});
callback()
});
}).on('error', function (e) {
callback(e);
})
}
从网页的源代码可以看出我们房屋信息的列表去全都包在一个个table的tr中,
所以我们首先找到其中的table,再选出其中的tr标签,然后对每个tr进行操作,摘出
其中的房屋题目。
PS:
由于这篇文章断断续续写的,所以到后期写的细节方面多有不足,
对应着我写的博客,和代码相对容易明白一点,但是首要因素是
明白async
和 http get
请求。
网友评论