美文网首页电商微商玩转大数据大数据
如何抓取小红书瀑布流网页上的商品信息

如何抓取小红书瀑布流网页上的商品信息

作者: 华天清 | 来源:发表于2018-05-22 10:00 被阅读23次

小红书是一个网络社区,也是一个跨境电商,还是一个共享平台,更是一个口碑库。最近有好多小伙伴都在讨论这个网站的商品信息抓取,讨论比较多的是瀑布流式网页怎么抓取下面的内容。在这里不想讨论技术方法,直接介绍一个快捷采集的软件,直接用,不用管技术细节。

下面就给大家分享下快速有效地将小红书的商品信息采集下来的步骤。

1,准备工具—集搜客网络爬虫

下载,安装,打开,登录账号,这里就不废话了,直接上干货

2,使用小红书商品列表数据DIY,快速采集

数据DIY是一个快捷采集工具,不用编程,直接用

1)进入数据DIY,从GooSeeker网站的顶部菜单进入路线是:资源——>数据DIY

2)在数据DIY网页上,依次选择 类别 — 网站 — 网页

小红书的具体类型是:

  • 类别:电商,
  • 网站:小红书,
  • 网页:小红书商品列表

参考下图

3)对比样本页面,观察页面的结构,输入的网址一定要具有相同的页面结构,否则会采集失败。

小红书的样本页面是这个样子的

商品列表的网址是来自手机上的小红书APP,获取网址的方法是:打开手机小红书APP -> 点开商城里的商品目录(不要点更多)-> 再点分类精选/热门,就看到商品列表了,然后点击右上角的分享按钮,再用电脑上的社交软件接收就行了。

你可能看到的需要采集的页面是这样的,可以对比一下,他们是一样的。

可以看出两个页面几乎一样,只是商品不同而已

4)输入要采集的网址,选择采集全部就能一直滚屏往下采,点击获取数据,并启动采集

会看到一个提示,要求启动爬虫窗口。而且会启动2个窗口,一个用来采集数据,一个用来打包数据。运行期间不要关闭他们,也不要最小化。但是这些窗口上面可以覆盖其他窗口

5)等待采集完成,打包下载数据

注意:提示采集完成后不要立马关闭窗口哦,需等待打包按钮变成绿色,采集状态变成已采集,请看下图

6)打包数据

7)下载数据

8)到这里我们的数据就采集下来了,让我们来看下我们采集到的数据吧

相关文章

  • 如何抓取小红书瀑布流网页上的商品信息

    小红书是一个网络社区,也是一个跨境电商,还是一个共享平台,更是一个口碑库。最近有好多小伙伴都在讨论这个网站的商品信...

  • 原生JS实现照片瀑布流与懒加载

    什么是瀑布流和懒加载 瀑布流是目前比较流行的一种网站页面布局,会在网页上呈现参差不齐的多栏布局,页面向下滚动,网页...

  • 瀑布流和懒加载实例【转载】

    什么是瀑布流和懒加载 瀑布流是目前比较流行的一种网站页面布局,会在网页上呈现参差不齐的多栏布局,页面向下滚动,网页...

  • web端传统分页与瀑布流加载对比

    这段时间在做网页端的瀑布流与分页,找到了一篇关于瀑布流与分页的对比文章: 当页面内容信息很多时,设计上应该使用...

  • 需要些例子

    教您使用java爬虫gecco抓取JD全部商品信息教您使用DynamicGecco抓取JD全部商品信息 Gecco...

  • 以有涯随无涯,殆已。

    曾经在一本杂志上看到过关于瀑布流的介绍,想必人们对此已经不陌生了。 瀑布流设计因其良好的浏览体验,最早在电脑网页上...

  • Python爬虫urllib2库的基本使用系列(三)

    1. 网页抓取 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中抓取出来。在Python中有很多库可以用来...

  • Python爬虫基础2--urllib2

    上一节我们讲解如何抓取网页和下载图片,在下一节里面我们会讲解如何抓取有限制抓取的网站首先,我们依然用我们上一节课的...

  • 2016.12.23 Python实战第二节练习项目:爬取商品信

    这次作业是抓取本地网页的商品信息,最终关于find_all()还是看了答案才解决掉。 先上结果 代码如下: 出现问...

  • 原生js实现瀑布流

    浏览网页的时候经常会遇到瀑布流布局的网站。也许有些读者不了解瀑布流。瀑布流,又称瀑布流式布局。是比较流行的一种网...

网友评论

    本文标题:如何抓取小红书瀑布流网页上的商品信息

    本文链接:https://www.haomeiwen.com/subject/pwxhjftx.html