这篇是上一篇抓文字爬虫的升级版。这次新增了抓图片。
您需要安装nodejs的运行环境(搜nodejs即可下载)
如果可以顺便在安装一个sublime(搜sublime即可下载),因为发现txt行尾插入换行'\n'会失效
const http=require('https');
const fs=require('fs');
const cheerio=require('cheerio');
const request=require('request');
for(i=1;i<=5;i++){
var url=`https://www.amazon.co.uk/Best-Sellers-Home-Garden-Cups-Mugs-Saucers/zgbs/home-garden/3149384031/ref=zg_bs_pg_1?_encoding=UTF8&pg=${i}`;
http.get(url,function(res){
var html='';
res.setEncoding('utf-8');
res.on('data',function(chunk){
html+=chunk;
});
res.on('end',function(){
var $=cheerio.load(html);
var groups=$('.zg_itemImmersion');
groups.each(function(item){
var group=$(this);
var groupRank=group.find('.zg_rankNumber').text().trim();
var groupTitle=group.find('.p13n-sc-truncate').text().trim();
var groupPoint=group.find('.a-icon-star').text().trim();
var groupReivewNum=group.find('.a-size-small').text().trim();
var groupPrice=group.find('.p13n-sc-price').text().trim();
var groupContent=groupRank+'^'+groupTitle+'^'+groupPoint+'^'+groupReivewNum+'^'+groupPrice+'\n';
var imgSrc=group.find('img').attr('src');
fs.appendFile('input.txt',groupContent,function(err){
if(err){
console.log(err);
}
});
request(imgSrc).pipe(fs.createWriteStream('./image/'+groupRank+'jpg'));
});
});
});
}
最后可以把所有图片都抓下来
1.png
正好会有100张图片。
并且在input文件中,整整齐齐的会有这100天的基本信息
2.png
网友评论