美文网首页
Web Scraper教程(五)爬虫进阶之微博评论的点击「查看更

Web Scraper教程(五)爬虫进阶之微博评论的点击「查看更

作者: iDataFly | 来源:发表于2020-05-05 23:52 被阅读0次
进阶知识点:

滚动到页面底部,点击「查看更多」才会加载新的内容

一、新浪微博评论中的舆情态势

任何事件在微博的发酵速度绝对是各大平台中最快的,如果把微博评论爬取下来,进行处理和分析,就能对某个事件的不同立场和风向有了全面的了解和掌握。
当然,评论量大的微博在爬取时耗费时间较长,为了缩短操作时间,找了老罗的一条评论不太多的微博进行演示。

二、爬取老罗的微博评论

1. 创建Sitemap

Sitemap name: weibo
Start URL: https://weibo.com/1640571365/J0xeHw48Y?from=page_1035051640571365_profile&wvr=6&mod=weibotime&type=comment

2. 建立页面「滚动至底部」和点击「查看更多」选择器

有些页面变化比较细微,需要仔细观察才能发现,微博评论就是这样。
在拖动滚动条至出现「查看更多」的过程中,页面出现了轻微的卡顿,这表示页面有一部分会随着用户往下浏览而加载。
在爬取数据时,如果没有建立「滚动至底部」的选择器,让卡顿的页面也完全呈现出来,则会造成程序找不到「查看更多」的情况,导致大量的数据没有被爬取。

建立「滚动至底部」选择器
Id: scroll
Type: Element scroll down
Select: 点击第1条和第2条评论最外围的方形元素
点击Done selecting!
勾选Multiple
点击Save seletor完成创建

建立点击「查看更多」选择器
Id: more
Type: Element click
点击SelectorSelect: 点击第1条和第2条评论最外围的方形元素
点击Done selecting!
点击Click selectorSelect: 点击「查看更多」,注意点击后对话框中的内容是「a.WB_cardmore」
点击Done selecting!
Click type: Click more,表示需要不断点击「查看更多」
Click element uniqueness: unique CSS Selector
勾选Multiple
点击Save seletor完成创建

3. 建立评论爬取的选择器

点击刚刚创建的more选择器,在此选择器下创建爬取评论的选择器
Id: comment
Type: Text
Select: 点击黄色方形元素中的评论
点击Done selecting!
点击Save seletor完成创建

4. 执行爬虫程序

Request intervalPage load delay均按默认即可

相关文章

网友评论

      本文标题:Web Scraper教程(五)爬虫进阶之微博评论的点击「查看更

      本文链接:https://www.haomeiwen.com/subject/tvcbghtx.html