前情提要
上文采集b站动态视频数据一文发布后,有读者反馈到一个需求。
论文需要数据支撑,需要采集b站视频评论内容。
工具选择
小白完成这个需求,依旧可以使用八爪鱼采集器来做。
计划步骤
- 先找定位数据。浏览器打开一个需要采集的视频。
- 滚轮下拉页面查看。页面是否通用,有没有特殊的内容。(防止出现特殊情况,导致无法定位采集的数据。)该采集场景没有特殊情况。
- 直接新建一个任务。打开八爪鱼采集器,新建一个自定义任务。
- 复制刚刚打开的网址。将需要采集的视频链接粘贴进去。
注意,新建的任务,采集器里浏览器cookie是空的,所以采集器里浏览器应该是游客状态。
如果想采集视频页评论需要登录状态,必须先登录一下账号,否则无法查看更多评论。
因为b站在视频页这里做了限制,游客身份无法获取数据。解决办法很简单,就是账号登录一下就可以了。
- 登录完,我们可以将页面下拉到评论区。可以正常展示评论数据。
- 接下来,我们先用八爪鱼采集器自带的自动识别网页。这个是自带的相对智能的一键采集功能。新手可以快速上手使用。
注意:先找一个评论数保证在100个以内的视频进行采集规则设置。
如果评论数过多,这个自动识别网页的流程会花很长时间才能跑完。
一旦点击自动识别网页,点击取消,它的取消响应也不是那么及时,难免心里会有负担。避免内耗,我们还是先找一个评论数少的视频做配置测试哈。
实操步骤
我随便找了一个有几十个评论数的视频,进行操作。
直接复制网址到采集器中新建的自定义任务中。
![](https://img.haomeiwen.com/i12827390/34c2e5fafc34dd3a.png)
直接点击保存设置
置入眼帘的这个界面,浏览器中是游客状态。
![](https://img.haomeiwen.com/i12827390/1244e9a6785f29e1.png)
可以看到这里的头像框是蓝底白字的登录。
我们先点击这里登录进行登录操作。否则无法查看所有评论数据。
![](https://img.haomeiwen.com/i12827390/75f7424d8d36a537.png)
登录后,可以查看所有评论内容。
![](https://img.haomeiwen.com/i12827390/3b2983f6c69c16ab.png)
直接点击自动识别网页
![](https://img.haomeiwen.com/i12827390/3aeb80adc080d4d7.png)
工具会自动滚动页面识别页面中的数据。
![](https://img.haomeiwen.com/i12827390/9b5e33e9dee2b60e.png)
这里比较自动化,但是不是很智能,因为会出错。
![](https://img.haomeiwen.com/i12827390/2acb5c99365dd8e9.png)
它会自以为是的将一些数据进行命名。并且会出错。比如这里圈中的几个字段就是无效的。
![](https://img.haomeiwen.com/i12827390/c344c31a677d6c93.png)
接下来就需要对字段进行修改,不需要的数据进行删除。剩下下面这三个字段的数据。
![](https://img.haomeiwen.com/i12827390/c527a51b2636f5b3.png)
然后点击生成采集设置
。
![](https://img.haomeiwen.com/i12827390/1fb84674868f080e.png)
就会得到一个基础的采集流程。这个流程对于现在这个需求其实大差不差已经完成,就是还需要在细节上进行处理。
![](https://img.haomeiwen.com/i12827390/ba88896b8d34d7c6.png)
可以看见右侧出现了一个采集流程图。
![](https://img.haomeiwen.com/i12827390/04d8a33521edaef4.png)
这个采集流程图是刚刚工具自动识别后,我对采集的数据进行筛选之后形成的采集规则。
全程无需自己直接对这个流程图进行操作。
接下来就是细节优化了。
比如在添加一个评论时间。
先在操作页面,点击 1. 圈中的 时间 ,然后点击 2. 圈中的 选中全部
![](https://img.haomeiwen.com/i12827390/055510f878178aab.png)
然后点击 采集以下元素文本
![](https://img.haomeiwen.com/i12827390/ceee48a2774101eb.png)
数据预览 中就多了个 时间 字段
![](https://img.haomeiwen.com/i12827390/c3ab5e8b44e81fea.png)
最后我们需要设置一个非常关键的配置,然后就要大功告成了。
流程图的优化
点击选中右侧采集流程中 打开网页 这个流程块。
![](https://img.haomeiwen.com/i12827390/0ad8899a765169f0.png)
点击 高级设置。
![](https://img.haomeiwen.com/i12827390/95f0924509df3d2e.png)
选中 使用指定的Cookie,然后点击 获取当前页面的Cookie,弹窗跳出“获取Cookie成功”即可。
点击 滚动网页 这个流程块。
![](https://img.haomeiwen.com/i12827390/88776a827d5d109b.png)
在 基础设置 中设置 循环次数 为100。
![](https://img.haomeiwen.com/i12827390/3aabce83cc98c742.png)
在 高级设置 中,
先选中 执行前等待,设置1或2秒,
然后选中 等待指定元素出现,
接着点击 1. 圈中的 箭头样图标,在浏览器中选择 2.圈中的 区域。
![](https://img.haomeiwen.com/i12827390/30e538beb1ea9896.png)
设置完成后,点击 应用。
这样就全部设置好了。
我们点击保存流程。点击采集试一试。
![](https://img.haomeiwen.com/i12827390/96f7fca5f9c2cc7e.png)
选择本地采集。
![](https://img.haomeiwen.com/i12827390/c62d33646681f4ed.png)
采集结果如上。
还有一点瑕疵。设置点赞数空的情况设置默认值为0。
![](https://img.haomeiwen.com/i12827390/85956cf8df32f9a5.png)
完美。
再用这个任务来采集一个评论数比较多的视频测试一下。
![](https://img.haomeiwen.com/i12827390/67effaeea79a4bfd.png)
没有什么问题。
结语感悟
需求是百变的,如果有需求,就应该把他记录下来,可以自己去寻找解决办法,去学习。
也可以请教高手,请高手出手,可以让你事半功倍。
谨记,靠人不如靠己。
网友评论