美文网首页有趣的文章互联网科技@IT·互联网
Gephi绘制微博转发图谱:以“@老婆孩子在天堂”为例

Gephi绘制微博转发图谱:以“@老婆孩子在天堂”为例

作者: 古柳_Deserts_X | 来源:发表于2017-08-14 23:44 被阅读6873次

一、前言

以前看过一篇提取《釜山行》剧本中人物,并用Gephi绘制关系图谱的文章,因此想用Gephi绘制下微博转发情况,借此来换个角度看看微博内容是怎么扩散的。其中爬取转发数据的思路可见于:老树微博,三千诗与画》,大同小异,不再赘述。

而在选择哪则热门微博时,正好看到有人转发了杭州保姆纵火案受害者家属,林生斌,微博ID:“老婆孩子在天堂”的一则为四川地震灾民捐赠物资的微博,截止周五(20170811)晚上10点20,转发发数为54045(评论:31431,点赞:238204。之后截图数据不同),数据量较为充足,可以一试。

另外一个选定这则微博,而非其他更具娱乐性、更能蹭热点的话题的原因,是一直没能为林先生干点什么,因此如果能将转发图谱绘制出来,并和《爬取张佳玮138w+知乎关注者:数据可视化》一文一样登上网站首页被加入今日看点的话,也姑且能算是帮其在扩散上尽了点小力。

二、Gephi简介

Gephi是一款开源免费跨平台基于JVM的复杂网络分析软件, 其主要用于各种网络和复杂系统,动态和分层图的交互可视化与探测开源工具。

应用场景

探索性数据分析:直观的网络操作实时分析。

链接分析:给出了关联对象背后(特别是无标度网络下)的结构。

社交网络分析:可以轻松创建对应社区组织和小世界(small-world)的社交数据链接。

生物网络分析:展示生物数据模式。

海报创作:通过打印高品质地图推广科学工作。

三、数据处理

想要用Gephi绘制网络图谱,最重要的就是知道每条网络的起点和终点,即Source和Target,以及所有这些点所组成的Id。其他还有每条网络的权重(Weight)、类型(有向的、无向的)、Id的名字Name、标签Label等等。

而爬取微博获得的原始数据却是如图格式的,因此,需要根据每一条的text内容,找出所有转发的节点和对应的起点、终点指向关系。

以用户“@Ponyyoung”的转发为例,text内容如下:

“//@柯蓝:危难中心里还有别人,让人尊敬。//@西门不暗: 这几年公共事件中,林先生是我见过情绪最克制,表达最得体的人。命运不该对他这么残忍。祝福他。”

这一条网络,包含四个节点,分别为:@老婆孩子在天堂>>>@西门不暗>>>@柯蓝>>>@Ponyyoung。

那么在CSV文件里,用'//'分列,切分成不同列,text从右到左便分别是第一层转发、第二层转发、第三层转发。知道了节点和所有转发层级后,将数据处理成Gephi所需的格式(本项目筛选了14层转发,越到后面数据也越少了,基本涵盖了全部数据):

在Nodes文件里将所有微博节点以"Id"设置为自然数的形式排列:

并进一步将Edges文件中Source和Target列,转换成对应“Id”值:

四、Gephi绘图

经过上述的爬取数据(截止20170813下午4点前)并将数据处理成Gephi所需的格式后,便终于到了最激动人心的绘图步骤了。由于此前并未使用过Gephi,里面各种参数和内置算法都不太熟悉,能得到怎么样的成果图,非常的依赖于绘制过程的操作。

此处推荐一个视频教程和一篇操作文章:

Gephi中文教程 | Udemy

GEPHI – Introduction to Network Analysis and Visualization

后面的操作基本按照后者进行,因此不再重复讲解操作步骤。不过由于电脑配置不行,跑软件内置算法时实在吃力,最终在只进行到3.3,给网络图上色的步骤,模块化处理之前。

运行Force Atlas 2算法后,图谱不断发生变化:

基本稳定后,give color to see see:

还是蛮漂亮的,不是嘛!其中右上角的圆形区域,其中心便是林先生的ID所在,左右密集的圆环就是由转发层级较少的ID所形成,结合1-14层,各层级转发数量图可知,在所有转发情况中直接转发原微博占比最高,其次是第二层转发。此处无法得知转发的用户中多少是林先生的粉丝,因而直接转发,或者有哪些大V介入,使其扩散出去,为更多人所见:

继续看看右上角圆环区域,所有ID所形成的节点,清晰可见:

放大,并加上ID名称,大致如下,由于软件内调整缩放大小和看图,非常不便,非常卡,所有姑且只能这么看看:

重新将目光移动到非右上角区域,错综复杂的转发关系,可见一斑:

找出其中一小簇节点情况(真的是漂亮,逃):

加上标签,可知是由用户“@据扯”引发的一小簇转发:

对应到CSV表格里,进行验证下,虽然上图昵称重叠严重,但还是基本符合的情况:

以上就是用Gephi绘制微博转发图谱的内容,还是那句话,由于跑不动软件的算法,虽然最后得到的图也还行,但操作不算完整。也无法得知千万粉丝、百万粉丝的大V,或高转发ID,在整个扩散过程中所起到的具体作用和直观的节点情形,略感遗憾。

五、微博生命周期

林先生的原微博发布时间为20170811(周五)14:43。从截止0813(周日)16点前获取的数据来看,本则微博的转发数在发布后的1-2小时内达到单位小时仅万条的高峰,之后虽然维持4-5千每小时的转发量至深夜,但下降趋势已然明显可见,次日转发数已经无法和当天相比。当然这不仅有一则微博本身生命周期的原因;前期可能有不少大V参与的原因;也有林先生发布其他微博,大家关注点转移等原因。

六、小结

继续在老树微博,三千诗与画之后,有针对性地抓取微博数据,但这回曾遇上API请求被拒,微博app也好几个小时上不去的情况,看来再大规模爬微博数据时要注意了。

再是,基本完成用Gephi绘图和前期找到转发的节点,并将数据处理成相应格式的步骤,在没使用过Gephi的情况下,熟悉了下将近5w条节点和边的数据绘制成网络图谱的流程,也对微博转发和扩散的方式有了不同角度的认知,对一则微博的生命周期,其热度及衰减过程有所了解。

补充一篇与本文相关的文章:伤心桥下春波绿,曾是惊鸿照影来

相关文章

网友评论

  • 48477214c41a:你好,我想问问,您的爬虫代码能分享给我学习学习吗?非常感谢,因为是做论文需要。
    48477214c41a:@Deserts_X 而且,我微信公众号关注你了哦
    48477214c41a:@Deserts_X 就是爬某条微博所有的转发链,也就是研究信息扩散用的。我之前用过fiddler,但不是很熟,如果能从你的代码中学习那是最好的事情了。谢谢你的回复啊!
    古柳_Deserts_X:@慢慢慢慢_c1a4 你是要爬什么数据呢?我的代码有点旧了,不知道微博反爬有没有变,而且当初是用fiddler抓包ipad数据的,可能你需要先了解下fiddler配置,手机设置等等。欢迎继续探讨
  • Zszen:想找图片的发图人, 貌似图片的名称base64编码还是解码就还原回来了
    古柳_Deserts_X: @Zszen 什么原图的发图人?
  • 古柳_Deserts_X:这篇的阅读量昨天爬取数据时还是1.5K,怎么突然变3K了呢
  • 古柳_Deserts_X:这阅读量是虚高,一点进来没看几眼立马退出的节奏吗:cold_sweat:
  • 浪费了昨天:厉害啊,坐等首页!
    古柳_Deserts_X:@浪费了昨天 :no_mouth:还是蛮难上主页的。阅读量倒是涨了还行,但点赞和喜欢就寥寥了。

本文标题:Gephi绘制微博转发图谱:以“@老婆孩子在天堂”为例

本文链接:https://www.haomeiwen.com/subject/rprprxtx.html