大数据技术、机器学习算法等新的互联网工具的推广和应用,为我们打开了一扇了解公众对某些事物的看法、关注度等统计信息的大门。
无论是一个产品、还是一个地区、还是一个人名、或者一个品牌,都可以通过媒体数据去抓取并分析了解公众的反应,例如新闻网站、论坛、博客、微博、微信、贴吧、天涯等。
当然也可以通过对京东、淘宝等电商网站上评论进行分析和统计,从而获取某些产品、某些品牌、某些地区、某些时间段的消费者反馈等基础数据,也可以继续通过数据筛选获取更细节的内容。
友情提醒:本文是本站截止目前图片最多的一篇文章:
步骤:
今天早上7点钟,设定几组关键词,例如产品安全相关的有:空气污染、甲醛、空气净化器、产品召回等。
贸易壁垒相关的有:贸易壁垒、TBT、认证、自贸区等。
然后,不用管它,等到晚上,服务器后台已经将数据收集整理成一系列可视化的输出。
热词云:根据关键词数量和频率的多少,改变词组字体大小的分布,从而直观的看出哪些关键词更受公众重视。例如下图中污染、空气质量等关键词的数量和频率要大于食物、质量等关键词。
也可以通过关联词图找出相关的关键词,帮助进一步检索和分析。
对于不同的关键词,或将一组关键词组合之后,再综合计算,得出公众对某些问题的情感反应统计数据。
情感分析(SA)又称为倾向性分析和意见挖掘,它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程,用户对某客体表达自身观点所持的态度是支持、反对、中立,即通常所指的正面情感、负面情感、中性情感。例如“赞美”与“表扬”同为褒义词,表达正面情感,而“龌龊”与“丑陋”就是贬义词,表达负面情感。
例如对于“假货”这个关键词,可以看出消极态度48.30%,大于中立态度24.03%和积极态度27.67%。还可以看出相对于昨天的变化趋势,积极、中立、消极态度各自是增加还是减少。
然后,又好奇的看了下上海外国语大学的态度,可以看出积极态度73.08%,远远大于中立态度和消极态度的比例。:)
再输入一位最近比较火的明星“周涛”,可以看出积极态度也是大于中立和消极态度,从另一个方面印证了广大网民对国民媳妇的态度。
其次,除了态度部分,还可以从媒体来源,得出部分信息,例如对比家电品牌格力和海尔,我们发现今天关于格力部分,新闻报道多于微博信息。而海尔则相反, 微博信息多于新闻报道。
另外,格力和海尔的总数量上,可以看出海尔的相对格力更多一些。当然这些数据是当天的统计,如果时间再进行延长或切割,结果会有所变化。
另外,对于一组关键词,也可以通过不同关键词的数量对比,发现公众对哪些部分更加关注,哪些部分相对冷门。例如对于贸易壁垒相关部分,认证和标准化远远大于贸易壁垒和TBT等术语。
而对于环境保护方面,污染关键词数量最多,达到11138个,甲醛次之,而pm2.5关键词只有87个。
更深入的,还可以通过舆情数量,进行排序,找到哪些事件或内容关注度最高,例如下面可以看出格力关键词部分,数量最多的是“你竟敢打我格力员工。。。”可以看出此类涉及到员工安全和尊严的时间,更能引起网民的关注。
当然,还可以从时间这个维度进行观察,了解到不同时间段,公众对于一个事件的情感趋势,是更消极还是更积极的态度。
也可以从舆情数量上,看出网民对一个事件或关键词的表达是变多还是变少。
小结:
在网址导航中搜集了部分关于人工智能的相关网站,如有兴趣可以进一步了解。
网友评论