美文网首页
用python对鹿晗微博进行数据分析

用python对鹿晗微博进行数据分析

作者: matianhe | 来源:发表于2017-08-27 22:23 被阅读0次

    转载请注明地址:用python对鹿晗微博进行数据分析
    这篇文章主要对数据进行简单的分析,代码在这里:
    python利用pandas、matplotlib和wordcloud做数据分析

    • 准备分析的数据:
      |----评论者的微博昵称
      |----微博的评论
      |----评论者的性别
      |----评论者的所在地
      |----评论者的生日

    这次的数据准备了30万+评论,其中不重复用户14万+。数据只是简单的进行了简单的去重和缺失值处理,感觉不用特别精确也能看出结果。这次的分析不是最终的结果,只是可以参考的一个趋势

    用户分析

    • 首先来看看评论最多的前几名


    • 我的天,一个人一条微博评论800+,这是不用吃饭吗。。。

    • 不知道前三十里面是不是全是真爱啊!


    • 再来看看评论数的折线图


    • 感觉在平稳的折线取值分析比较靠谱,所以放大了看看。
    • 14万数据,出现一人几百条的也就那几个,所以把他们筛选掉。


    • 在1000左右,人均的评论数差不多在20左右,才感觉不会是刷出来的。

    • 再看看性别,毫无疑问的。


    • 感觉这个结果还算正常,比计算机专业男女比大一点。

    • 之后再来说年龄分布


    • 由于微博默认生日的原因,有好几个突出点,可以忽略,我也把范围截取到了1949年-2017年。
    • 90后的峰值我预料到了,但是没想到00后会降的这么明显。难道真的都喜欢TF?本来想在爬一下TF的看看,不过感觉大同小异就没有再做。
    • 之后看看具体排名吧:


    • 第一是98年的同学,不过前几名差距不是很大,可能跟采集的数据有关系。
    • 可以看出来00后只有 00、01、02在坚守阵地了。
    • 90后真的老了吗。。。。。

    • 最后来看看地区分析吧


    • 先来看看省份和四个直辖市分布,北京第一,有一点可能好多人都改成了和鹿晗一样的东城区。。。所以可能不是很准确。
    • 其次是广东,不知道为什么,好多刷量小号默认位置也是广东,不知是不是这个原因和北京并列。
    • 河北排在了第9。。。

    再来看看城市分布

    • 海淀区居然是第一,这个没有想到。
    • 基本上分三个梯队吧,石家庄在第三梯队。
    • 很尴尬的是,分词的时候把大连给分了?

    最后看看整体城市分布比例吧,感觉石家庄有点小啊。



    评论分析

    • 从词云上可以看出来,评论中出现最多的词是鹿晗,这点并不意外。
    • 其次,音乐,爱,零界点,棒棒糖等词也排在前面,我想是因为这次爬取得微博是棒棒糖那篇。
    • 另外中间右部,迪丽也出现了,可能八卦的网友也不少啊。
    • 整体感觉比较正能量,黑粉还是要少的多。

    整体分析差不多就这样了,第一个项目做的有点慢,下次计划分析一下淘宝的商品信息,不过爬数据要花时间,可能会很久了。

    相关文章

      网友评论

          本文标题:用python对鹿晗微博进行数据分析

          本文链接:https://www.haomeiwen.com/subject/uziidxtx.html