1. 总体概况
爬虫共运行了近14个小时,最终停止于2016年12月27日下午3点左右。
当其时共有494位QQ好友,其中我有访问权限的是372位,再减去要求不抓取的好友1位,共为371位好友的空间说说。
371位好友共贡献了219840条说说。
最早的一条说说发自腾讯视频官方账号,发表时间是2008年1月11日。而普通好友发表的是早的1条说说则发表于2008年2月8日。
最晚的一条发表于2016年2月27日,即数据抓取时的截止日期。
在这跨越9年108个月共3272天时间里:
平均每年发表说说24426.67条,每人每年发表说说约65.84条;
平均每月发表说说2035.56条,平均每人每月发表说说约5.49条;
平均每日发表说说67.19条,平均每人每日发表说说0.18条。
-----------------------------------------
人均约593条。中位数是300,下四分位数是56,上四分位数是819。说明一半的人在这9年里发表的说说数量少于300条,另一半的人发表的数量则多于300条。而又有一半的人其发表的说说数量在56到819条之间。
图1:说说数量频率分布直方图2. 时间分析
2.1 按年划分
图2:动态数量年度分布柱状图说说数量从2008年开始递增,并且涨幅较大,直到2012年达到顶峰。当年共发表说说40000多条,日均112条。而2013年开始下降,2014年下降幅度进一步加大,2015年及2016年下降幅度较小且相对稳定。我的好友中大多数为同龄人,2010年高中毕业上大学,2011、2012、2013年为在校期,期间也增加了不少大学里面的好友账号,于是这3年中说说数量的增长或许与此有关。而其后下降,除了由于大学毕业的影响外,微信的流行也是不可忽视的原因之一。
微信自2011年初发布,至2012年春、秋用户数量分别达到1亿、2亿,而在2013年初达到3亿[[1]](http://baike.baidu.com/link?url=5sfuLX9l84SZwO4hJOMRT1RzRn-NO9J3Q4k9Za5cWiTFrVdlwOwQLjPxr_toWUzej80grTlF8BckfZkI7-g0R_1vPM8l7N9u-DlevlxKLea)。其用户数量的增长与此处QQ空间动态数量的变化较为吻合。可预见的是,人们在QQ空间里面发表动态的频率会逐渐降低。
据网络中的统计信息显示,目前QQ的用户更多为95后,而我的QQ好友中95后数量较小,不足以对整体数量产生显著性影响。
2.2 按月划分
图3:动态数量月度分布柱状图注意上图中Y轴坐标是从10000开始的
从月份上看,一年中12个月所发表的说说数量差别并不大。最低值出现在2月份,很明显是由于春节的影响,人们的线下活动多了,线上的活跃度会明显下降。最高值出现在7月,其次是6月。值得注意的是自8月起数量开始减少,10月达到最波谷后开始回升,12月达到另一个波峰。
共有两个上升期,分别是3-7月、10-12月,这两段时间都是在校期,两个波峰估计是快到期末的时候发牢骚多了。
从比例上看各月份的分布则显得更为均匀:
图4:动态数量月度分布百分比2.3 按日划分
图5:每日动态数量分布柱状图从上图看来,一月之中具体在哪一天发布说说似乎是具有很高的随机性,总体较为均匀。细心点看也还可以看出上半月的数量略多于下半月,下半月整体略有下降的趋势,不知是否因为下半月流量慢慢也捉襟见肘了。31日的数量比其它日期少了约有1/3,或许是因为一年之中31日比其它天数少了约1/3(出现在1、3、5、7、8、10、12月,共7次,1-28都有12次)
2.3.1 一星期内的分布
图6:一星期内每天发表动态数量分布柱状图上图中,0表示周一,1表示周二,以此类推
有点意外的是,一周中各天发表的说说竟然相关无几。其最低值是周一的30876,最高值是周五的32090,两者仅差1214,约4%。饼状图可以更加明显地看出其均匀性:
图7:一星期内各天说说数量分布百分比2.4 按小时划分
图8:一天内各时间段数量分布柱状图各个时间段都有不少人在发说说,而午夜0点到凌晨6点之间发表的说说数量还不在少数,晚上6点到10点期间发表的数量却远少于平均数,这点倒是非常的出乎意料。但经过多次从源数据进行确认,的确是这样。按照人们的上网习惯,应该是18到23点的数据与0到5点的互换才对。莫非夜猫真的那么多,而晚上大家都浪漫去了?
最高点出现在下午3点是合情合的,大多数人在下午2、3点时精神疲乏,相对而言更加难以专心工作/学习,在网上闲逛的频率会相应增加。
3. 手机使用情况
3.1 手机品牌
图9:来自各手机品牌的动态数量分布柱状图近22万条说说中,只有3万多条是带有手机标识的。其中最多的是出自于小米(包括其旗下的红米),其次是苹果(包含iPhone和iPad),第三是华为(包括荣耀)。值得注意的是,动态数量多,并不一定说明好友当中使用该品牌的人就多,因为也有可能是用该品牌的人更加喜欢发说说。
3.2 具体型号
图10:发说说最多的前21款手机众多手机型号中,小米2S发出的说说最多。此处应该提出的是,前5款手机的排名应该是正确的,后面的则可能会有些误差。因为同款手机在QQ空间中显示出来的标识也并不完全相同。如上图中的排最后(第21)的手机荣耀6,我在源数据中看到第22名也还是它,只是名称变成了“华为 荣耀6”,数量为171,第33名也是它,显示的是“荣耀6(4G)”,数量是126。如果把后两个数字加起来再排名,则它可以排到上图中的第7名了。
3.3 “特立独行”者
图11:动态来源中一些不常见的手机品牌先说明,此处并没有任何嘲笑或贬低的意思,只是展示一些与众不同的特色点。
对我而言,上图中的10个手机(品牌),海信还算是相对熟悉的,最后一个是富士康,第一个alps有点熟悉,但想不起来。OPSSON不知道是不是做投影仪的那个爱普生,港利通不记得是不是在电脑城里面见过了。剩下的都不认得了。
4. 地域分布
近22万条说说中,带有地理位置信息的只有千分之一,共2224条。
4.1 省份分布
分省份显示如下:
图12:动态来源省份分布图广西、广东已经占据了80%。前10省份如下:
图13:Top 10 省份分布完整的榜单如下:
图14:动态来源省份分布柱状图未知地带里面是一些没有显示省份也没有显示城市的,只显示了道路或者甚至是地铁线路。还有几个是显示广告的,被我去掉了。是这么一些地方:
图15:未知地带此处“金鸡路1号”想必对应的是我大学学校所在地了,这个应该不会错。
4.2 城市分布
图16:动态来源城市 Top 20前五分别是梧州、深圳、佛山、广州、桂林。这顺序到是有点出乎意料之外了。也有几个有意思的地点:
图17:未知地点考文垂好像是澳大利亚的城市?还有人去过伊斯坦布尔?忽冷忽热那个肯定是人为修改的了。
In The End
本来我以为每个人发表说说的数量会成正态分布,以为人们发表说说的时间从0-24小时中也会成正态分布,得到的结果显示出来的却并不是这样。
我以为一周中发表说说的时间会有个集中趋势,然而也没有。
这次爬来的数据好像并没有什么好玩有趣的东西,下次爬点别的玩玩。
最后附上程序代码QQzone_crawler - Github
网友评论