Web Scraper教程（六）爬虫进阶之唯品会的商品满意度爬取

作者: iDataFly | 来源:发表于2020-05-23 18:29 被阅读0次

进阶知识点：

除爬取当前页面信息外，还可点击进入二级页面进行信息爬取

一、在唯品会找到口碑爆棚的低价包包

唯品会是女生爱逛的品牌折扣网站，品类覆盖服饰鞋包、美妆、母婴、居家等。去折扣网站，最担心的是商品质量和口碑如何，所以关心的重点一个是价格是否在可承受范围内，另一个是买过的人给出的评价怎么样。

以「COACH品牌特卖馆」为例，重点爬取：折后价、折扣度和口碑（用户满意度）。

从下图中可以看到，特卖馆内仅呈现包包的折后价和折扣度，并没有口碑的展示。

特卖馆包包

满意度要在点击进入包包详情页后，才能在「全部口碑」中找到。

二级页面满意度

二、爬取唯品会包包信息

1. 在「COACH品牌特卖馆」中，创建Sitemap

Sitemap name: weipinhui
Start URL:https://list.vip.com/brand.html?sn=10025557&refer_url=https%3A%2F%2Fcategory.vip.com%2Fhome

2.建立滚动选择器，让页面完全加载

页面内的信息要在滚动条下拉时才会完全加载，所以要先建立滚动到底的选择器，加载出全部信息，才能爬取完整信息。

点击Add new selector
Id: scrolldown
Type: Element scroll down
点击Select: 分别点选前两个包包最外围的方形元素
点击Multiple
点击Done selecting!完成建立

3.建立内容爬取选择器

建立bags选择器，作为字段容器
如果对于这一步不理解，可以查看教程三的图示
点击Add new selector
Id: bags
Type: Element
点击Select: 分别点选前两个包包最外围的方形元素
点击Multiple
点击Done selecting!完成建立

4. 爬取当前页信息的同时，建立二级页面链接

爬取当前页面信息
点击bags选择器进入目录内，分别为标题（title）、折后价（price）、折扣度（discount）建立选择器

建立二级页面链接
点击Add new selector
Id: link
Type: Link
点击Select: 点选图片即可
点击Done selecting!完成建立

5. 在二级页面内爬取满意度

在特卖馆页面中，点击包包进入商品详情页。
在详情页内，需要先点击「全部口碑」才能显示出满意度，进行爬取时，也要按照实际操作的顺序进行设置。

建立点击「全部口碑」的选择器
点击link选择器，进入目录页，开始建立选择器
点击Add new selector
Id: click
Type: Element click
Selector: 点击「Select」，点选「全部口碑」
Click Selector: 点击「Select」，点选「全部口碑」
点击Done selecting!完成建立

建立爬取满意度的选择器
在包包的详情页面，点击进入「全部口碑」标签页，开始建立选择器
点击Add new selector
Id: koubei
Type: Text
点击Done selecting!完成建立

Web Scraper设置已经全部完成，可以开始执行爬虫程序并导出数据了。

网友评论

本文标题：Web Scraper教程（六）爬虫进阶之唯品会的商品满意度爬取

本文链接：https://www.haomeiwen.com/subject/xrflahtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！