美文网首页
采集案例一:采集京东商品列表页数据

采集案例一:采集京东商品列表页数据

作者: 爱生活的敏敏 | 来源:发表于2020-08-18 18:01 被阅读0次

    采集系列文章

    爬虫软件的介绍及案例说明(文章链接

    ▶案例一:采集京东商品列表页数据(本文)

    案例二:采集京东商品详情(文章链接

    案例三:采集京东商品评论(文章链接

    案例四:采集花瓣网的图片(文章链接)

    附加:如何通过链接URL批量下载图片(文章链接


    在京东首页的搜索框中搜索某个关键词,你将可以获得该关键词下的商品及商品信息。这些商品的排列顺序可根据综合排名、销量、评论数以及价格等因素决定。本案例使用八爪鱼软件,爬取某个关键词下的商品信息,这将有助你更快更准地收集排名前列的商品名称、商品SKU及商品图片等。

    一、结果预览

    通过下面的操作文档,你将可以得到某个商品评价的excel文档,如下图:

    二、工具

    1、八爪鱼采集工具

    官网下载、安装、注册及登录后,就能直接使用,操作过程十分简单,故略过程!

    链接:https://www.bazhuayu.com/

    三、采集总体步骤

    1、使用八爪鱼软件爬取商品信息,将采集的信息保存为Excel文档

    ☆这是本文主要内容

    2、根据八爪鱼采集到的商品图片链接URL,批量下载商品主图

    ☆八爪鱼不能直接爬取图片,只能爬取图片链接URL,如果想批量下载图片,请查看“如何通过链接URL批量下载图片

    四、制定采集目标

    Step 1:在京东搜索框输入你想要搜索的商品关键词,比如我选的是“儿童电动牙刷”。

    Step 2:查看京东商品列表页中商品信息的组成部分,并明确每一部分的属性。如下图,商品价格、商品名称、评价条数及店铺名称等信息是以文本的形式呈现的,可以直接用采集器采集;而商品图片是以图片的形式呈现的,采集器只能采集到相应的链接(URL),需再用其他软件批量下载图片。

    ☆注:可能你会好奇,为什么页面上没有显示商品SKU,但却可以采集到。原因是商品名称上是有一个商品链接的,商品链接包含了商品SKU信息。如:“https://item.jd.com/100010758424.html”(链接中粗体为商品sku)

    五、八爪鱼模板采集

    Step 1:在京东搜索框输入关键词,打开商品列表页,复制链接。

    Step 2:在八爪鱼中选择相应的模板,例如此处我选京东的商品列表页数据采集模板。

    Step 3:了解模板基本信息,如模板介绍、采集字段预览、示例数据等,看看模板采集的数据是否符合要求。并点击“立即使用”。

    Step 4:设置采集参数,并点击“保存并启动”。此处只有一个配置参数,即列表页的网址,只需要将商品列表页的链接复制到配置参数框中。

    Step 5:选择运行模式,此处选择“启动本地采集”,其余两种都需要付费。完成这一步,采集器就开始采集信息了。

    Step 6:下图为采集框,当采集到自己想要的商品数目,就可以点击“停止采集”,并选择“导出数据”。

    Step 7:选择导出的文件格式,一般选Excel格式,然后采集就结束啦!

    六、查看Excel文件

    由下图可见,该自动识别流程可以采集到商品名称、商品SKU、商品价格、商品主图链接等。


    本文使用八爪鱼的智能模板采集功能,采集京东列表页的商品信息。由于采集模板有一定的限制,你也可以参照案例三,使用流程自动识别功能来采集。

    如果你也想直接在Excel中,批量将图片链接URL转换为图片(如结果预览所示),可以查看下方链接①的内容。

    链接①:如何通过链接URL批量下载图片

    相关文章

      网友评论

          本文标题:采集案例一:采集京东商品列表页数据

          本文链接:https://www.haomeiwen.com/subject/lfpkjktx.html