在速卖通上迅速找到热卖产品,如果一条一条查看时间成本显然非常高,过程也非常枯燥,当然也可以借助第三方软件各种爬虫软件进行调研,当然对比火车头等采集器,Python显然更加灵活!
以宠物类目为例,将宠物类目这个抓下来。
第一步获取所有子类目的url链接,直接上bs4就能解析出来,代码如下:
抓取目标:
类目下可以抓取的信息有,颜色属性、价格、邮费、出单量以及评论数
代码如下:
点进一个产品连接,我们可以看到,产品详情链接,我们可以获取的信息有:
该产品的产品参数,店铺名,地址,店铺开了多久,
代码如下:
继续下拉,可以看到orders信息,可以抓取的信息有,买家的地址,购买数量,购买时间。
右键审查元素,点击下一页看orders页面变化情况
请求方法为get,返回类型为json格式的url,参数为
忽略掉callback,数据仍然可以正常返回,这里只需要构造id、pgn即可。ps:headers里添加
注意:我尝试了多次,任然无法获取50页后orders的信息,每次访问50页后的数据都会自动跳转到第一页,如果你有解决方法可以直接私信我!!!
代码如下:
点击Feedback,可以抓取的信息为买家的个人信息链接,买家地址,评论星数,购买的规格
直接审查元素看,请求类型以及参数
请求类型为post,需要构造参数ownerMenberId以及prroductId
之间页面源代码,可以发现ownerMenberId以及prroductId隐藏在这里
代码如下:
代码运行2天,共抓取了10w条产品信息以及600w条销量信息,上scrapy分布式效率更高,结果如下
代码见github
网友评论