介绍
舆情分析基础知识
-
随着互联网迅速发展,社交网络发展为民众了解社会现象、舆情事件的重要平台,带来便利的同时,部分网民也会在互联网上宣泄情感,引发公共舆情事件。为了更好地进行舆情监控和情感预警,把握网民的情感趋向,基于人类行为动力学的舆情事件分析,探究舆情对象的情感变化和关系演化是非常必要的。
-
人类个体行为是隐藏在许多复杂社会经济现象背后的驱动力,定量理解人类行为是现代科学的一个重要研究课题。2005年,Barabási研究显示人类行为间隔规律是高度非均匀的,称之服从幂律分布,并在《自然》发表了一篇文章,开创了“人类行为动力学”的新研究方向。目前,科学家通过大量的实证统计发现了一些人类行为,如邮件通讯、短信通讯、网页浏览、电影点播、微博事件等的时间间隔近似服从幂律分布,这种幂律分布特性无论在群体水平还是个体水平上都可以得到证实。除了发现人类行为的时间间隔分布中广泛存在的幂律现象外,近年来证实研究发现在人类的空间运动行为中也存在幂律分布特性,如停留时间分布和出行距离分布。
-
常见的人类行为动力学分析包括:时间间隔分布、活跃性分析、时间间隔分布宽度、时间间隔重标度、交互周期与热度分析、交互的阵发性和记忆性分析等。刘海鸥等老师研究发现微博、QQ群、天涯论坛、人人网服从幂律分布如下图所示,表明在线社交活动少数人处于活跃状态,积极频繁地发布消息,而大部分成员活跃性较低,处于静默状态。
20190122135355693.png -
梁晓敏等老师提出了如下图所示的舆情事件中评论对象的情感及关系分析模型,并分析了“魏则西事件”的负向情感指数演化趋势及关系网络。
1.png
2.png
时间间隔分布图绘制
-
为解释人类个体为何具有高概率进行长时间停留的特征,通常会对个体在统计时间段内的日常活动事件序列进行分析。下图是一个典型的个体在一周内活动的情况,图中空白区域表示个体在某地点的停留,黑色竖线表示在不同地点的出行。
5.png -
幂律特性分析通常会得到如下图所示的图形,而它如何通过Python进行绘制呢?
6666.png
数据集
- 博主用的是数据库的形式,我用的excel
- 我用excel做了一份简单的评论数据,包括用户Id,主题用户,点赞数量,评论数,评论内容,评论时间,积极情绪分数
代码
import pandas as pd
import matplotlib.pyplot as plt
# 读取数据
df = pd.read_csv("data1.csv", encoding='GB18030')
# 处理数据
data = df.values.tolist()
times = [] # 记录时间
# score = []
l1 = []
for i in data:
times.append(i[5])
# score.append(i[6])
l1.append(1)
# 设置高度
plt.subplot(711)
# 生成饼图
plt.bar(times, l1, color='black')
plt.yticks([])
plt.xticks([])
plt.show()
- 代码中times用于统计时间,l1用于绘制竖线,生成图形如下,图中空白区域表示个体回复在某个时刻的停留时间,黑色竖线表示在不同时刻出现了回复行为,黑色竖线越多,该时刻的回复事件越活跃。
image.png
网友评论