美文网首页
Web Scraper教程(六)爬虫进阶之唯品会的商品满意度爬取

Web Scraper教程(六)爬虫进阶之唯品会的商品满意度爬取

作者: iDataFly | 来源:发表于2020-05-23 18:29 被阅读0次
    进阶知识点:

    除爬取当前页面信息外,还可点击进入二级页面进行信息爬取

    一、在唯品会找到口碑爆棚的低价包包

    唯品会是女生爱逛的品牌折扣网站,品类覆盖服饰鞋包、美妆、母婴、居家等。去折扣网站,最担心的是商品质量和口碑如何,所以关心的重点一个是价格是否在可承受范围内,另一个是买过的人给出的评价怎么样。

    以「COACH品牌特卖馆」为例,重点爬取:折后价、折扣度和口碑(用户满意度)。

    从下图中可以看到,特卖馆内仅呈现包包的折后价和折扣度,并没有口碑的展示。

    特卖馆包包

    满意度要在点击进入包包详情页后,才能在「全部口碑」中找到。

    二级页面满意度

    二、爬取唯品会包包信息

    1. 在「COACH品牌特卖馆」中,创建Sitemap

    Sitemap name: weipinhui
    Start URL:https://list.vip.com/brand.html?sn=10025557&refer_url=https%3A%2F%2Fcategory.vip.com%2Fhome

    2.建立滚动选择器,让页面完全加载

    页面内的信息要在滚动条下拉时才会完全加载,所以要先建立滚动到底的选择器,加载出全部信息,才能爬取完整信息。

    点击Add new selector
    Id: scrolldown
    Type: Element scroll down
    点击Select: 分别点选前两个包包最外围的方形元素
    点击Multiple
    点击Done selecting!完成建立

    3.建立内容爬取选择器

    建立bags选择器,作为字段容器
    如果对于这一步不理解,可以查看教程三的图示
    点击Add new selector
    Id: bags
    Type: Element
    点击Select: 分别点选前两个包包最外围的方形元素
    点击Multiple
    点击Done selecting!完成建立

    4. 爬取当前页信息的同时,建立二级页面链接

    爬取当前页面信息
    点击bags选择器进入目录内,分别为标题(title)、折后价(price)、折扣度(discount)建立选择器

    建立二级页面链接
    点击Add new selector
    Id: link
    Type: Link
    点击Select: 点选图片即可
    点击Done selecting!完成建立

    5. 在二级页面内爬取满意度

    在特卖馆页面中,点击包包进入商品详情页。
    在详情页内,需要先点击「全部口碑」才能显示出满意度,进行爬取时,也要按照实际操作的顺序进行设置。

    建立点击「全部口碑」的选择器
    点击link选择器,进入目录页,开始建立选择器
    点击Add new selector
    Id: click
    Type: Element click
    Selector: 点击「Select」,点选「全部口碑」
    Click Selector: 点击「Select」,点选「全部口碑」
    点击Done selecting!完成建立

    建立爬取满意度的选择器
    在包包的详情页面,点击进入「全部口碑」标签页,开始建立选择器
    点击Add new selector
    Id: koubei
    Type: Text
    点击Done selecting!完成建立

    Web Scraper设置已经全部完成,可以开始执行爬虫程序并导出数据了。

    相关文章

      网友评论

          本文标题:Web Scraper教程(六)爬虫进阶之唯品会的商品满意度爬取

          本文链接:https://www.haomeiwen.com/subject/xrflahtx.html