美文网首页Python新世界
爬取中关村在线电瓶车信息!你们的电瓶都备好了吗?周某来了哟!

爬取中关村在线电瓶车信息!你们的电瓶都备好了吗?周某来了哟!

作者: 919b0c54458f | 来源:发表于2018-11-27 13:52 被阅读3次

最近打算买一辆电瓶车来上下班,但又不知道哪个好,网上是各说纷纭啊,于是就想着,干脆用node.js自己写一个小爬虫,来爬一下中关村在线里面电瓶车的信息吧。

(以后完整代码请前往www.yubowen2003.com 暂时还在建设中,欢迎大家提issue:joy: 。)

简介

该demo采用node.js作为爬虫,为方便,有些地方使用es6语法,如有不懂,欢迎咨询:blush:

步骤

第一步,引入需要的库

var cheerio = require('cheerio');

var fetch = require('node-fetch');

// cheerio 是一个类似浏览器端的jQuery,用来解析HTML的

// fetch 用来发送请求

复制代码

第二步,设置初始的爬取的入口(我身处杭州,所以地区选了杭州的 )

// 初始url

var url = "http://detail.zol.com.cn/convenienttravel/hangzhou/#list_merchant_loc"

// 由于每个a标签下是相对路径,故需要一个根地址来拼接,如下

var urlRoot = "http://detail.zol.com.cn"

// 存放所有url,之所以用set,是为了防止有相同的而重复爬去

var urls = new Set()

// 存储所有数据

var data = []

复制代码

至此,我们的准备部分结束了:sweat_smile:,接下来,开始表演了

分析网页,思考爬取的方式

进群“548377875”即可获取数十套PDF以及大量的学习教程哦!

每行4款,每页是48款,一共16页

思路:

每次获取当前页48个链接,并点进去之后,拿到该电瓶车的名称和价格(其他信息获取方式一样,自行改就好:joy:)

第一页的全部完成之后,翻到下一页,继续爬,直到最后一页结束

首先我们定义一个函数如下

// 这是得到每个页面的48个链接,并开始发送请求

function ad(arg){

// 参数 arg 先不管

// 本地化一下需要爬取的链接

let url2 = arg || url;

// 请求第一页该网页,拿到数据之后,复制给 app

var app = await fetch(url2).then(res=>res.text())

// 然后假装用jQuery解析了

var $ = cheerio.load(app)

// 获取当前页所有电瓶车的a标签

var ele = $("#J_PicMode a.pic")

// 存放已经爬取过的url,防止重复爬取

var old_urls = []

var urlapp = []

//拿到所有a标签地址之后,存在数组里面,等会儿要开始爬的

for (let i = 0; i < ele.length; i++) {

old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text()))

}

// 用把URL一块丢给promise处理

urlapp = await Promise.all(old_urls)

// 处理完成之后,循环加入jQuery:joy:

for (let i = 0; i < urlapp.length; i++) {

let $2 = cheerio.load(urlapp[i],{decodeEntities: false})

data.push({

name:$2(".product-model__name").text(),

price:$2(".price-type").text()

})

}

// 至此,一页的数据就爬完了

// console.log(data);

// 然后开始爬取下一页

var nextURL = $(".next").attr('href')

// 判断当前页是不是最后一页

if (nextURL){

let next = await fetch(urlRoot+nextURL).then(res=>res.text())

// 获取下一页的标签,拿到地址,走你

ad(urlRoot+nextURL)

}

return data

}

ad()

复制代码

完整代码如下

var cheerio = require('cheerio');

var fetch = require('node-fetch');

var url = "http://detail.zol.com.cn/convenienttravel/hangzhou/#list_merchant_loc"

var urlRoot = "http://detail.zol.com.cn"

// var url = "http://localhost:3222/app1"

var urls = new Set()

var data = []

async function ad(arg){

let url2 = arg || url;

var app = await fetch(url2).then(res=>res.text())

var $ = cheerio.load(app)

var ele = $("#J_PicMode a.pic")

var old_urls = []

var urlapp = []

for (let i = 0; i < ele.length; i++) {

old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text()))

}

urlapp = await Promise.all(old_urls)

for (let i = 0; i < urlapp.length; i++) {

let $2 = cheerio.load(urlapp[i],{decodeEntities: false})

data.push({

name:$2(".product-model__name").text(),

price:$2(".price-type").text()

})

}

var nextURL = $(".next").attr('href')

if (nextURL){

let next = await fetch(urlRoot+nextURL).then(res=>res.text())

ad(urlRoot+nextURL)

}

return data

}

ad()

复制代码

相关文章

  • 爬取中关村在线电瓶车信息!你们的电瓶都备好了吗?周某来了哟!

    最近打算买一辆电瓶车来上下班,但又不知道哪个好,网上是各说纷纭啊,于是就想着,干脆用node.js自己写一个小爬虫...

  • 奥特曼你这么懒怪兽知道吗

    自从我当上某小区保安后, 无数业主举报电瓶车频频失窃, 简直是放屁! 为了防止他们电瓶车被偷, 我都推到了自己家里...

  • 某z手机信息爬取

    一、爬取准备 网站分析总体分析:经过分析发现,中关村手机基本上都是传统的网页模式,并没有用到前后端分离(json传...

  • 电瓶车大盗回来了,该乐就乐,但追捧他还是算了

    那个电瓶车大盗回来了。 窃·格瓦拉,广西南宁壮族人,无业,擅长偷电瓶车。江湖传说,他 8 年偷盗电瓶车高达 100...

  • 2019-08-01(二五四)

    小车碰瓷 电瓶车 交警都惊呆了 绿灯亮起 右转的小车 与直行的电瓶车 发生亲密摩擦 电瓶车 连人带车 一点事儿没有...

  • Selenium小例子

    爬取腾讯动漫 爬取某网站漫画 爬取拉勾网

  • 爬取某宝商品(1)

    今天我们利用上次的工具selenium 的webdrive工具简单爬取某宝上商品信息 目的:爬取华为手机的 名称、...

  • 女儿的惊讶

    自从学会电瓶车,买了个电瓶车后,我去哪里都开着电瓶车去,我家的车几乎成了摆设,儿子手受伤要接送后,就是每天早上开一...

  • 电瓶车 、自行车的身价

    电瓶车 、自行车的身价 一弓 早上,全家快速吃早餐。丈夫急匆匆先下楼,一会儿,来了电话,告知,女儿的电瓶车的电瓶被...

  • 无论如何都要好好学习生活和爱❤️

    有个朋友说:“我高中的时候有阵子住我外婆家,早上陪我外婆去买菜,她骑着电瓶车载我。上桥的时候电瓶车电力不足爬不上,...

网友评论

    本文标题:爬取中关村在线电瓶车信息!你们的电瓶都备好了吗?周某来了哟!

    本文链接:https://www.haomeiwen.com/subject/fgsgqqtx.html