node爬虫（二）

作者: silentsvv | 来源:发表于2017-09-10 05:20 被阅读0次

我们继续上一次的进度，这一次我们爬一个网站的图片。

文中使用的是chrome浏览器，没有的话需要安装。
我的node版本是7.10.0。

start

这次我们爬取的网站是多玩图库。

我们想要获取的dom节点是图下的$('li.masonry-brick')节点，里面包括我们想要的网页链接和图片链接。

$('.masonry-brick')节点

代码如下，我的index.js文件

require('chromedriver'); //chrome浏览器驱动
let webdriver = require('selenium-webdriver'); //浏览器自动操作
let cheerio = require('cheerio'); //获取页面数据
let fs = require('fs');

let driver = new webdriver.Builder().forBrowser('chrome').build()

let data = new Map()

driver.get('http://tu.duowan.com/tu')  //目标网站
driver.getPageSource().then((val) => {
  const $ = cheerio.load(val);  //解析网站
  let result = $('.masonry-brick:not(.tags) a').find('img') //寻找有图片的节点
  let parent,textNode,title,link,imgSrc;
  result.each((i,elem) => {
    let obj = {};
    parent = $(elem).closest('li') //图片所在li父节点
    textNode = parent.find('em a')
    title = textNode.text()
    link = textNode.attr('href')
    imgSrc = $(elem).attr('src')

    obj = {
      imgSrc,
      link
    }
    data.set(title,obj)
  })

  for(item of data.entries()) {
    console.log(item)
  }
  driver.close()
})

在cmd输入命令，node index.js

获取到相关图片和链接

成功！

相关文章信息:
node爬虫一
 node爬虫二
 node爬虫三

网友评论

本文标题：node爬虫（二）

本文链接：https://www.haomeiwen.com/subject/kqkzjxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

node爬虫（二）

start

代码如下，我的index.js文件

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读