2013微博头条关注度对比和可视化

作者: 放翁lcf | 来源:发表于2018-06-08 00:36 被阅读24次

2013微博头条关注度对比和可视化
1月9日 42章经分享记录：关于头条 & 短视频分发
How to 与世界同行
雅西亚，给每一个在生活中勇敢前行的人们一个希望的充电站
震惊！！雅西亚竟成为国民的热宠奶茶品牌
四个网络数据告诉你，星巴克和costa哪个火
简书、网易Lofter、今日头条、微信手机端主要内容框架对比
快读，适应时代的文化产品，你正确的应用了么？
2017-04-25
是成长，还是在拔苗助长

最近一个项目用到一个上百万行的微博数据，包括微博文本数据和地理坐标数据，从数据库中把这些数据取出来后做了一些分析，这里选了其中比较有趣的部分记录一下，当做积淀。

因为数据是2013年的（现在2018年去挖2013的数据确实有些“落后”了，但它比较全而且现在微博爬数据越来越困难了），首先要确定2013年有哪些微博热点，这里选了微博小秘书发布的十大头条盘点：

十大头条日历图
用echarts标注一下这10个头条的发生时间，得到上面的可视化效果（青色有涟漪效果的为10大头条发生时间）。

微博小秘书的十大头条盘点
这里选了其中4个进行分析，首先关注度方面，选了五个维度：微博量、微博文本平均长度、衰减时间、衰减速率、坐标广度；

这些指标部分通过SQL语句直接算，坐标广度是把坐标取出来后用Python算了最小外包矩形（MBR）。最后得到一个雷达图（经过归一化处理）：

关注度对比雷达图

可以看到地震是关注度很高的，毕竟四川的地震牵动全国人民的心。

自然语言处理方面，先是用jieba库进行了分词，统计了词频，并且用wordcloud进行词云可视化。
部分Python代码如下：

wlst = jieba.lcut(text) #分词

dictToCsv(wcDict,dictOut) #保存词频表到dictOut文件里
bdimg = np.array(Image.open(markPic))
wordcloudc = WordCloud(
    mask=bdimg,
    background_color='white',
    font_path='C:\Windows\Fonts\simsun.ttc'). \
    generate_from_frequencies(wcDict)
wordcloudc.to_file(picOut)  # 保存图片为png