采集系列文章
爬虫软件的介绍及案例说明(文章链接)
▶案例一:采集京东商品列表页数据(本文)
案例二:采集京东商品详情(文章链接)
案例三:采集京东商品评论(文章链接)
案例四:采集花瓣网的图片(文章链接)
附加:如何通过链接URL批量下载图片(文章链接)
在京东首页的搜索框中搜索某个关键词,你将可以获得该关键词下的商品及商品信息。这些商品的排列顺序可根据综合排名、销量、评论数以及价格等因素决定。本案例使用八爪鱼软件,爬取某个关键词下的商品信息,这将有助你更快更准地收集排名前列的商品名称、商品SKU及商品图片等。
一、结果预览
通过下面的操作文档,你将可以得到某个商品评价的excel文档,如下图:
二、工具
1、八爪鱼采集工具
官网下载、安装、注册及登录后,就能直接使用,操作过程十分简单,故略过程!
三、采集总体步骤
1、使用八爪鱼软件爬取商品信息,将采集的信息保存为Excel文档
☆这是本文主要内容
2、根据八爪鱼采集到的商品图片链接URL,批量下载商品主图
☆八爪鱼不能直接爬取图片,只能爬取图片链接URL,如果想批量下载图片,请查看“如何通过链接URL批量下载图片”
四、制定采集目标
Step 1:在京东搜索框输入你想要搜索的商品关键词,比如我选的是“儿童电动牙刷”。
Step 2:查看京东商品列表页中商品信息的组成部分,并明确每一部分的属性。如下图,商品价格、商品名称、评价条数及店铺名称等信息是以文本的形式呈现的,可以直接用采集器采集;而商品图片是以图片的形式呈现的,采集器只能采集到相应的链接(URL),需再用其他软件批量下载图片。
☆注:可能你会好奇,为什么页面上没有显示商品SKU,但却可以采集到。原因是商品名称上是有一个商品链接的,商品链接包含了商品SKU信息。如:“https://item.jd.com/100010758424.html”(链接中粗体为商品sku)
五、八爪鱼模板采集
Step 1:在京东搜索框输入关键词,打开商品列表页,复制链接。
Step 2:在八爪鱼中选择相应的模板,例如此处我选京东的商品列表页数据采集模板。
Step 3:了解模板基本信息,如模板介绍、采集字段预览、示例数据等,看看模板采集的数据是否符合要求。并点击“立即使用”。
Step 4:设置采集参数,并点击“保存并启动”。此处只有一个配置参数,即列表页的网址,只需要将商品列表页的链接复制到配置参数框中。
Step 5:选择运行模式,此处选择“启动本地采集”,其余两种都需要付费。完成这一步,采集器就开始采集信息了。
Step 6:下图为采集框,当采集到自己想要的商品数目,就可以点击“停止采集”,并选择“导出数据”。
Step 7:选择导出的文件格式,一般选Excel格式,然后采集就结束啦!
六、查看Excel文件
由下图可见,该自动识别流程可以采集到商品名称、商品SKU、商品价格、商品主图链接等。
本文使用八爪鱼的智能模板采集功能,采集京东列表页的商品信息。由于采集模板有一定的限制,你也可以参照案例三,使用流程自动识别功能来采集。
如果你也想直接在Excel中,批量将图片链接URL转换为图片(如结果预览所示),可以查看下方链接①的内容。
链接①:如何通过链接URL批量下载图片
网友评论