进阶知识点:
除爬取当前页面信息外,还可点击进入二级页面进行信息爬取
一、在唯品会找到口碑爆棚的低价包包
唯品会是女生爱逛的品牌折扣网站,品类覆盖服饰鞋包、美妆、母婴、居家等。去折扣网站,最担心的是商品质量和口碑如何,所以关心的重点一个是价格是否在可承受范围内,另一个是买过的人给出的评价怎么样。
以「COACH品牌特卖馆」为例,重点爬取:折后价、折扣度和口碑(用户满意度)。
从下图中可以看到,特卖馆内仅呈现包包的折后价和折扣度,并没有口碑的展示。
特卖馆包包满意度要在点击进入包包详情页后,才能在「全部口碑」中找到。
二级页面满意度二、爬取唯品会包包信息
1. 在「COACH品牌特卖馆」中,创建Sitemap
Sitemap name
: weipinhui
Start URL
:https://list.vip.com/brand.html?sn=10025557&refer_url=https%3A%2F%2Fcategory.vip.com%2Fhome
2.建立滚动选择器,让页面完全加载
页面内的信息要在滚动条下拉时才会完全加载,所以要先建立滚动到底的选择器,加载出全部信息,才能爬取完整信息。
点击Add new selector
Id
: scrolldown
Type
: Element scroll down
点击Select
: 分别点选前两个包包最外围的方形元素
点击Multiple
点击Done selecting!
完成建立
3.建立内容爬取选择器
建立bags选择器,作为字段容器
如果对于这一步不理解,可以查看教程三的图示
点击Add new selector
Id
: bags
Type
: Element
点击Select
: 分别点选前两个包包最外围的方形元素
点击Multiple
点击Done selecting!
完成建立
4. 爬取当前页信息的同时,建立二级页面链接
爬取当前页面信息
点击bags选择器进入目录内,分别为标题(title)、折后价(price)、折扣度(discount)建立选择器
建立二级页面链接
点击Add new selector
Id
: link
Type
: Link
点击Select
: 点选图片即可
点击Done selecting!
完成建立
5. 在二级页面内爬取满意度
在特卖馆页面中,点击包包进入商品详情页。
在详情页内,需要先点击「全部口碑」才能显示出满意度,进行爬取时,也要按照实际操作的顺序进行设置。
建立点击「全部口碑」的选择器
点击link选择器,进入目录页,开始建立选择器
点击Add new selector
Id
: click
Type
: Element click
Selector
: 点击「Select」,点选「全部口碑」
Click Selector
: 点击「Select」,点选「全部口碑」
点击Done selecting!
完成建立
建立爬取满意度的选择器
在包包的详情页面,点击进入「全部口碑」标签页,开始建立选择器
点击Add new selector
Id
: koubei
Type
: Text
点击Done selecting!
完成建立
网友评论