最近粉涨得有点多(与往常相比而言)。有时我点开一看,一分钟关注 N 个人,喜欢 N 篇文章的😳 我决定分析看看有多少是 bot 🤖
本来想从「消息」的「关注」页面把「关注的人都什么时候关注的」全部抓下来,但发现简书居然是动态加载的😱 而且只能查看 9 页(不知道为什么)。
所以一共抓下来 86 个粉:
日涨粉量可以看到,涨粉就是最近几天的事。
关键怎么判断一个人是不是🤖呢?我决定去抓它的「动态」。还是由于简书是动态加载的原因,我只能抓到最近的 20 条。先来看我两个朋友的情况:
花名 | 关注数 | 粉丝数 | 文章数 | 字数 | 收获喜欢❤️数 |
---|---|---|---|---|---|
YNC | 6 | 213 | 331 | 423291 | 145 |
就这个名字吧好吗 | 4 | 1 | 2 | 1418 | 2 |
我们再来看看抓取的数据:
关注时间 | 关注数 | 粉丝数 | 文章数 | 字数 | 收获喜欢❤️数 |
---|---|---|---|---|---|
2017-06-01 22:16:23 | 43 | 37 | 12 | 19231 | 48 |
2017-06-07 05:34:18 | 5 | 0 | 0 | 0 | 0 |
2017-06-10 00:22:13 | 4 | 1 | 2 | 1418 | 2 |
2017-06-27 08:17:02 | 11 | 1 | 6 | 1588 | 2 |
2017-06-29 19:00:11 | 32 | 0 | 0 | 0 | 0 |
2017-07-02 16:38:17 | 36 | 99 | 62 | 29694 | 55 |
2017-07-03 04:41:12 | 4 | 0 | 0 | 0 | 0 |
2017-07-13 09:10:06 | 2 | 0 | 1 | 1636 | 0 |
2017-07-19 01:38:38 | 17 | 2 | 0 | 0 | 0 |
2017-07-22 23:29:17 | 42 | 349 | 40 | 67300 | 248 |
2017-07-25 03:38:17 | 167 | 3 | 1 | 42 | 0 |
2017-07-25 20:56:30 | 58 | 1 | 0 | 0 | 0 |
2017-07-27 20:11:57 | 6 | 0 | 1 | 652 | 0 |
2017-07-31 08:45:12 | 39 | 0 | 0 | 0 | 0 |
2017-08-02 22:12:28 | 43 | 0 | 0 | 0 | 0 |
2017-08-07 13:32:15 | 93 | 15 | 6 | 5302 | 9 |
2017-08-08 13:22:39 | 16 | 1 | 1 | 526 | 0 |
2017-08-14 12:19:14 | 22 | 0 | 1 | 68 | 0 |
2017-08-16 10:02:51 | 20 | 1 | 0 | 0 | 0 |
2017-08-19 21:20:12 | 6 | 213 | 331 | 423291 | 145 |
2017-09-11 12:24:15 | 5 | 0 | 0 | 0 | 0 |
2017-09-19 09:53:27 | 17 | 1 | 0 | 0 | 0 |
2017-09-20 11:41:05 | 8 | 1 | 3 | 1198 | 0 |
2017-09-23 08:29:45 | 3 | 0 | 0 | 0 | 0 |
2017-09-24 20:25:40 | 24 | 4 | 0 | 0 | 0 |
2017-10-06 06:31:52 | 10 | 0 | 0 | 0 | 0 |
2017-10-06 13:36:06 | 433 | 18 | 13 | 13950 | 18 |
2017-10-06 23:10:31 | 2 | 0 | 0 | 0 | 0 |
2017-10-12 14:38:24 | 12 | 1 | 0 | 0 | 0 |
2017-10-20 09:35:36 | 22 | 0 | 3 | 2446 | 1 |
2017-10-21 13:44:23 | 15 | 1 | 11 | 8826 | 8 |
2017-10-27 08:17:49 | 69 | 2 | 0 | 0 | 0 |
2017-10-29 00:32:07 | 22 | 2 | 11 | 7576 | 14 |
2017-11-01 10:04:54 | 1 | 0 | 0 | 0 | 0 |
2017-11-02 06:57:06 | 25 | 0 | 0 | 0 | 0 |
2017-11-03 10:05:04 | 76 | 2 | 0 | 0 | 0 |
2017-11-10 14:04:50 | 12 | 0 | 0 | 0 | 0 |
2017-11-12 13:07:12 | 196 | 556 | 27 | 29671 | 678 |
2017-11-27 11:15:02 | 12 | 0 | 4 | 3552 | 4 |
2017-11-28 16:54:24 | 24 | 0 | 0 | 0 | 0 |
2017-12-06 09:12:26 | 1 | 0 | 0 | 0 | 0 |
2017-12-06 09:15:16 | 115 | 3 | 0 | 0 | 0 |
2017-12-06 10:13:50 | 18 | 1 | 0 | 0 | 0 |
2017-12-06 13:51:03 | 9 | 0 | 4 | 259 | 1 |
2017-12-06 14:13:19 | 5 | 1 | 0 | 0 | 0 |
2017-12-06 17:07:58 | 3 | 0 | 0 | 0 | 0 |
2017-12-06 17:47:52 | 5 | 1 | 0 | 0 | 0 |
2017-12-06 20:21:01 | 11 | 0 | 0 | 0 | 0 |
2017-12-06 20:51:08 | 10 | 0 | 1 | 82 | 0 |
2017-12-06 22:16:15 | 13 | 20 | 65 | 54864 | 45 |
2017-12-07 08:13:28 | 34 | 9 | 10 | 2669 | 12 |
2017-12-07 08:29:00 | 40 | 0 | 0 | 0 | 0 |
2017-12-07 08:30:32 | 76 | 3 | 0 | 0 | 0 |
2017-12-07 08:51:02 | 7 | 0 | 0 | 0 | 0 |
2017-12-07 08:53:45 | 15 | 10 | 6 | 1533 | 18 |
2017-12-07 10:28:29 | 14 | 0 | 0 | 0 | 0 |
2017-12-07 11:25:07 | 2 | 2 | 38 | 7318 | 2 |
2017-12-07 13:04:58 | 86 | 9 | 6 | 108079 | 9 |
2017-12-07 14:14:24 | 16 | 1 | 0 | 0 | 0 |
2017-12-07 14:21:58 | 90 | 6 | 3 | 0 | 4 |
2017-12-07 14:39:26 | 2 | 0 | 0 | 0 | 0 |
2017-12-07 15:23:54 | 1 | 0 | 0 | 0 | 0 |
2017-12-07 17:09:45 | 6 | 0 | 1 | 594 | 0 |
2017-12-07 17:11:39 | 123 | 2 | 1 | 2 | 0 |
2017-12-07 18:28:03 | 5 | 0 | 0 | 0 | 0 |
2017-12-07 19:27:22 | 38 | 0 | 1 | 7 | 0 |
2017-12-08 11:10:19 | 4 | 2 | 2 | 2322 | 1 |
2017-12-08 12:03:01 | 4 | 0 | 0 | 0 | 0 |
2017-12-08 13:45:32 | 3 | 2 | 0 | 0 | 1 |
2017-12-08 13:55:51 | 38 | 0 | 3 | 1282 | 2 |
2017-12-08 17:55:55 | 46 | 432 | 21 | 20282 | 336 |
2017-12-09 00:35:16 | 37 | 0 | 11 | 12093 | 7 |
2017-12-09 00:48:00 | 60 | 0 | 1 | 396 | 0 |
2017-12-09 00:57:34 | 288 | 4 | 0 | 0 | 0 |
2017-12-09 01:18:57 | 31 | 0 | 0 | 0 | 0 |
2017-12-09 01:36:54 | 31 | 2 | 0 | 0 | 0 |
2017-12-09 01:45:35 | 289 | 5 | 0 | 0 | 0 |
2017-12-09 08:30:17 | 60 | 0 | 0 | 0 | 0 |
2017-12-09 11:24:30 | 75 | 0 | 0 | 0 | 0 |
2017-12-09 12:18:14 | 89 | 1 | 0 | 0 | 0 |
2017-12-09 17:35:54 | 300 | 1 | 0 | 0 | 0 |
2017-12-09 17:44:44 | 85 | 23 | 29 | 69212 | 153 |
2017-12-09 19:45:12 | 30 | 0 | 0 | 0 | 0 |
2017-12-09 19:47:49 | 30 | 0 | 0 | 0 | 0 |
2017-12-09 20:11:53 | 176 | 20 | 2 | 3212 | 25 |
2017-12-09 20:24:12 | 4 | 0 | 1 | 876 | 0 |
可以看到,有 28 个「粉丝数」「文章数」「❤️数」均为 0 的粉(占比 33% ),估摸着这些可能得是🤖。
疑似🤖粉数量分布但这种推测相当不靠谱,也许别人只是刚注册,关注了一堆人呢(但这帮人「疑似🤖」的可能性还是很大,哪个正常人会一下关注这么多不认识的?!就是不是🤖,叫它们「潜水粉」也是没毛病的)。要想靠谱一点,还得靠分析用户「动态」:那种最近 20 次操作间隔全在一分钟以内完成,且,注册有一段时间了,几乎可以确定为🤖(但记得排除那些只做个一两次操作的,这部分粉不好分辨)。
比如这位的操作间隔(单位:秒):1, 0, 1, 0, 1, 1, 0, 1, 0, 65, 1, 0, 1, 1, 0, 1, 1, 1, 1
。正常人有这手速?!不可能这么巧,遇上 @一叶知秋 了吧。
蹊跷的是这位:0, 0, 0, 95, 14693782, 3, 1, 0, 1, 0, 1, 0, 1, 0, 1, 216, 1, 1, 0
。沉寂 170 天(合 5.6 个月)以后又重出江湖秒点一番😱 如果是🤖,为什么要封号这么久,如果真是人,这手速又太匪夷所思😵
更诡异的是这位:1, 4, 4, 3, 4, 11, 15, 4, 7, 2, 5, 41, 5777, 6, 8825, 82, 321126, 4383176, 4
。看着手速也挺快吧,但人家有 38 篇文章,目测是个程序员。几分钟发一篇文章,我不知道他是怎么做到的😵
我本来以为「一分钟内最多操作数」会是一个很好的区分指标,然而并没有😵[1]
一分钟内最多操作数人,真的是神奇的物种。这行为方式完全没个准嘛😒 看来,要想知道到底有多少🤖粉,还得学会抓取动态数据!话说,@简叔 不会因为这事封我号吧🤔 我什么都不知道🤫 和我没关系🤥
最后不得不赞一下简书,不看源码不知道,那是真·牛逼啊!!!
-
其实我还试过「算术平均数」「几何平均数」「调和平均数」……效果都不好。 ↩
网友评论