美文网首页
不写代码,怎么用web scraper爬取京东商品多级页面的数据

不写代码,怎么用web scraper爬取京东商品多级页面的数据

作者: 大王丽丽 | 来源:发表于2018-09-14 20:40 被阅读394次

最近打算做个关于手机推荐的分析,以京东在售手机为样本。话说以前也爬过京东的数据,但是二级页面选择器类型都是简单的text,本次想要抓取二级页面中的店铺名称、好评率和评价标签,页面需要滚动下拉才能显示完全的数据,因此涉及到在二级页面中element sroll dowm的使用。链接地址:【手机手机手机】价格_图片_品牌_怎么样-京东商城

一、分析网站规则

1、起始页面的数据可以显示完全

2、分页时,网址不变化,需要click点击翻页

3、从起始页面link进入二级页面后,需要滚动下拉才能显示完整数据

因此确定抓取数据的方法:element click+link+element sroll down+text

二、sitemap建立

从图中可看出,我设定了list、link、sroll down三个选择器为串联关系,其中scroll down是为了滚动下拉辅助显示数据,其余子选择器类型均为text,为真正抓取数据的子选择器,抓取数据维度有手机名称、价格、评价人数、店铺名、好评率、评价标签6个方面的信息。

需要注意的是:scroll down中必须设置delay,推荐2000ms,我刚开始这里没有设置delay导致好评率和评价标签没爬到,就跳转到下个页面了。

代码如下:

{"startUrl":"https://www.jd.com/chanpin/127371.html","selectors":[{"parentSelectors":["_root"],"type":"SelectorElementClick","multiple":true,"id":"list","selector":"div.gl-i-wrap","delay":"2000","clickElementSelector":"a.pn-next em","clickElementUniquenessType":"uniqueCSSSelector","clickType":"clickMore","discardInitialElements":false},{"parentSelectors":["list"],"type":"SelectorText","multiple":false,"id":"price","selector":"div.p-price","regex":"","delay":""},{"parentSelectors":["list"],"type":"SelectorText","multiple":false,"id":"pingjianum","selector":"div.p-commit","regex":"","delay":""},{"parentSelectors":["list"],"type":"SelectorLink","multiple":false,"id":"link","selector":"div.p-name a","delay":""},{"parentSelectors":["link"],"type":"SelectorElementScroll","multiple":false,"id":"scroll down","selector":"div#J-global-toolbar","delay":"2000"},{"parentSelectors":["link"],"type":"SelectorText","multiple":false,"id":"store","selector":"div.popbox-inner div.mt","regex":"","delay":""},{"parentSelectors":["link"],"type":"SelectorText","multiple":false,"id":"percent","selector":"div.comment-percent","regex":"","delay":""},{"parentSelectors":["link"],"type":"SelectorText","multiple":false,"id":"label","selector":"div.tag-list","regex":"","delay":""}],"_id":"shouji2"}

三、数据预览

设定好参数后就可以坐等结果了,预览如下:

手机分析过程请关注后续发布哦~~~

相关文章

  • 不写代码,怎么用web scraper爬取京东商品多级页面的数据

    最近打算做个关于手机推荐的分析,以京东在售手机为样本。话说以前也爬过京东的数据,但是二级页面选择器类型都是简单的t...

  • 不写代码的爬虫,10分钟搞定

    使用 Chrome 浏览器插件 Web Scraper 可以轻松实现网页数据的爬取,不写代码,鼠标操作,点哪爬哪,...

  • 2018-11-09

    使用 Chrome 浏览器插件 Web Scraper 可以轻松实现网页数据的爬取,不写代码,鼠标操作,点哪爬哪,...

  • Web Scraper 使用教程(一)- 安装

    之前写了介绍Web scraper的文章: 有了这款工具,不写代码搞定批量爬取数据! 这几天打算写个系列的教程,介...

  • 1.python爬虫实例

    1.京东商品页面的爬取 2.亚马逊商品页面的爬取 用headers字段,让代码模拟浏览器向亚马逊服务器提供请求。 ...

  • 案例集锦

    案例一: 京东商品页面的爬取 案例二:亚马逊商品页面的爬取 由于amazon禁止python访问,要把header...

  • Scrapy+Selenium+Phantomjs的Demo

    前段时间学习了用Python写爬虫,使用Scrapy框架爬取京东的商品信息。商品详情页的价格是由js生成的,而通过...

  • 网络爬虫实战(5个案例)

    案例1:京东商品页面的爬取 商品链接 案例2:亚马逊商品页面的爬取 商品链接 案例3:百度360关键词提交 搜索引...

  • requests库网络爬取实战

    @[toc] 实例1:京东商品页面的爬取 实例2:亚马逊商品页面的爬取 需要伪造请求头 实例3:百度/360搜索关...

  • 入门级爬虫(2)

    requests库入门实操我的个人博客 京东商品页面爬取 亚马逊商品页面的爬取 百度/360搜索关键字提交 IP地...

网友评论

      本文标题:不写代码,怎么用web scraper爬取京东商品多级页面的数据

      本文链接:https://www.haomeiwen.com/subject/uijagftx.html