赖美云 2019-4-22 创造 101 开播周年微博评论分析
首页刷到赖美云的这条创造101开播周年微博,点进评论无意间看到有很多重复昵称和评论内容,以为是新浪的 Bug,多刷新几下还是有大量 ID 和评论内容都重复,好奇之下爬了评论看看内容。
爬取工具:后羿采集器
关于网页爬虫数据采集工具,作为一个没有编程技能的人,简单尝试过几个工具,后羿采集器是对编程和网页小白最友好的,界面和操作方式都是。不过这就是另一个话题了,有兴趣的朋友可以在他们网站下载玩一玩,网站也有相关教程,论坛也有解答问题的客服。
微博发布时间是 2019-4-22 22:44,爬取的时间大概是2019-4-22 23:54,发布一个小时,网页显示评论数字为 3000+,数据爬下来有 2000+,考虑到各层回复评论(大概400~500条)和被新浪判定为僵尸粉屏蔽掉的评论。,数字应该没有差太多。
数据结果和处理
后羿采集器智能模式识别了非常多的字段,我需要的只是评论用户昵称和评论内容,爬出来导出为 XLSX 格式,Excel 打开是这个样子:
A 列为昵称,没有什么问题;
B 列为微博内容,观察有这么几个问题:以评论昵称+中文冒号开头;有评论配图字样;部分用户会主动@赖美云产生@火箭少女101_赖美云字样,可能会影响评论内容分析。
B 列数据处理:
1.按照冒号拆分列,去掉开头的评论昵称+冒号;
2.替换的方式去掉评论配图和@火箭少女101_赖美云。
数据处理完毕如下:
数据汇总分析
分析思路
目的是分析是否真的有那么多的重复昵称和评论文本,所以最直接的,分别看评论次数最多的用户和重复次数最多的评论文本即可。
基于可能是粉丝刷榜或者买了水军的推测,可能还需要对 TOP 评论次数的用户是否是僵尸号进行判断,判断指标是用户的头像、昵称、关注数、微博数等等。
在饭圈儿,粉丝还会有一些专门打榜的小号(未防止用户改名字,上面爬数据最好爬出来评论用户的主页链接),这种用户昵称与明星名字或者粉丝给的爱称相关度非常大,所以判断评论评论的真实性还可以分析一下词频。
分析过程
使用数据透视表汇总,分别看一下发评论较多的微博昵称和重复次数较多的评论内容:
再看一下 TOP 的昵称具体发布的内容,正好与上述重复评论重合:
也就是说,截至爬数据的时刻,评论数 TOP10 的粉丝平均每个人把这 8 条评论每条重复发了 6 遍。
再看一下昵称的高频关键词:
备注:云包含赖美云;我也不知道面包和花栗鼠是什么梗。
高频关键词是结合了肉眼看上去的判断和公主号 @数据化管理 分享的词频分析工具的结果。
去重之后的用户总数为 1174,其中昵称明确含有赖美云相关关键词的就有 241 ,真实粉丝的占比还是相当高的。
最后再看一下各个情况的粉丝评论贡献情况,除了以上一个帐号发布 60+ 条评论极端情况,还有 242 个粉丝贡献 2 条及以上的评论,21% 的粉丝贡献了 55% 的评论。
分析结论
从结合以上三个简单的指标:TOP 昵称、TOP评论内容、真实粉丝占比、各等级粉丝评论贡献率,开头提到的赖美云评论区重复昵称和内容应该是粉丝打榜的行为,但是因为数量并不是特别大,不确定是一个粉丝还是一个粉丝小团体,如果是一个人发的,这一个粉丝就发了 500+ 条;如果是一个小团体,人数未免太少了一些,赖美云不能只有这几个特别忠实粉丝吧。
这样做粉丝真的快乐吗?
网友评论