学习材料:微信公众号:学术点滴,我只是一个搬运工。如有侵权,立马删除。
一、关键词(共现、定位、时区图、时间线图、突现)
文章A 关键词1、2、3、4
文章B 关键词4、5、6
共现:共同出现,同一篇文章里的关键词之间是共现关系,1、2、3、4两两之间有一条线相连
中介中枢性:4作为文章A和B的关键词中介,处于中枢位置,或者有一个关键词连接好几篇文章,起着枢纽的作用,那这个词就叫中介中枢,具有中介中枢性
频次越高,节点越大,也就是圆圈越大,但是圆圈越大不代表中介中心性越高,中介中心性是通过某个节点的连线的多少表示出来的
节点可以用鼠标拖动
P乱码的解决方法:重新新建一个project,把数据来源选择成WOS,重新跑一遍,搞定!
P如果图上有零散的,可以拉到中间去,但是其实是没有必要拉的,因为做这个分析本来就是看的高频的,零散的没必要看。
调图:直接用鼠标拖动节点
P左侧表格里中介中枢性全为零:计算一下中枢性,点击菜单栏第二个Metrics——compute Centrality,中枢性马上就再左侧表里出来了
聚类:先点1,共现图左上角会出现S值和Q值,再点2,会弹出一个窗口,直接点右上角叉叉,一直叉掉为止。
再点LLR,每一类的标签就会出现,标签大小可以调
在聚类图中关闭关键词,让关键词消失:发关键词的阈值Threshold调到最大,或者把字体大小Fonts调到最小。
聚类出来的类别太多,想要减少个数:菜单栏选择display——见下图
聚类图后面的颜色其实没什么太大的意义,它代表最先开始共现的两个词所处的年份
聚类标号数字越小,聚类中包含的关键词越多,每个聚类中到底包含了哪些关键词,可以通过导出报告来看。
聚类后会出现Q值和S值,这两个数值表征着聚类效果的好坏,一般认为:
Modularity:聚类模块值(Q值),一般认为Q>0.3意味着聚类结构显著
Silhouette:聚类平均轮廓值(S值),一般认为S>0.5聚类就是合理的,S>0.7意味着聚类是令人信服的。
聚类有三种算法:LSI,LLR,MI,一般就只用LLR,因为其他两个显示不好
聚类表:导出方法:
聚类表可以保存成HTML格式
做时区图
数据重新跑一下,也就是重新点一次GO
如果数据一直在跑,自己不停的话,点击聚类的图标可以人为让它停下
调出时区图的方法
点这个圆圈图标可以让时区图里的圆圈变透明
下图中最大的圆圈是104数据管理,定位在1998年,圆圈的大小表示关键词的频次多少,定位年份表示这个关键词第一次出现的文章发表的年份,也就是这个关键词第一次出现的年份,连线表示这个关键词和其他包含这个关键词的文章的共现关系。
调图:时区图调图只能竖直拉,不能水平拉,不是说水平不能拉,而是因为水平拉不符合逻辑,因为关键词已经被定位到首发年份了。然后换白底,截屏保存就行。
时区图解释:随着时间流逝,哪些领域成为新的研究热点,可以定位某个领域的新的关键词第一次出现是在什么时候,
时区图的作用:最大的作用是帮助某个领域的入门者快速了解某个领域的发展脉络,预测发展方向。
时区图的缺点:1、因为关键词被定位在首次出现该关键词的文章发表的年份,所以,假设有一个关键词在所在那篇文章发表的那年就只出现了一次,在好几年后,出现了80次,那么几年后的那个时区内将只出现它与那些有它的文章中的其他关键词的连线,而它本身的圆圈将变得很大,却被定位在了它并不热门的那一个时区内。这个问题可以通过关键词突现解决。2、时区图中的连线只能跨时区连,如果有一篇文章出现了两个都是首次出现的关键词,那么,它们之间却不能有一根线连起来,这个问题不大,基本没什么影响。
时间线图(需要再聚类的基础上做)
时间线图的含义:横着看,最右边是聚类,横轴是时间,时间线图比时区图更加细化,反映某一个聚类下的关键词在时间上的演化
右边的聚类的标签一定也会出现在时间轴下方,因为聚类的标签就是挑选的一个聚类中频次最高的那个关键词取名的,
对时间线图的解释:某个聚类,在几几年出现了A关键词,后来到了几几年有出现B关键词,再后来到了几几年,C这个关键词又成了热门领域,最好在叙述的过程中能够提供例如政策文件啊或者历史事件啊来佐证这个时间线中关键词的发展,也就是为自己的图提供支撑的证据,使之更加具有信服力。
突现词(在任何一个图的基础上都可做,可以反映研究前沿)
有些点变红了,红的点就是研究前沿
突现,指的是突然爆发出很多这个关键词
突现率是中间strength这个指标
研究前沿和研究热点是两个东西,研究热点是一直持续到目前的,研究前沿是某个时间段很多人研究的。
某个关键词没有意义想要删掉的话,方法就是把左侧表格前面的对勾不要打勾就行。
二、作者
如果有几千篇,可能作者合作网络图就会比较好
作者合作或者机构合作比较少的不建议用CiteSpace做,适合用UCINET或者siphy或者XXX(没听清)
由于CiteSpace是一个黑箱操作,有时结果并不十分理性,比如在做作者和机构合作网络是,图谱绘制结果往往不太理想,这是建议大家利用UCINET,Pajek,vosviewer,Gephi等软件做图谱,而这些软件识别共现矩阵,共现矩阵可以用bibexcel,bicoab或者SATI等软件,当然利用CO-OC【科学分析软件】来做就更方便了,一键做出共现矩阵和相异矩阵,非常节省时间。
这四个作者合作写了一篇文章,那么他们之间两两会有一条连线,也就是形成了作者共现网络,其实就是作者合作网络,和关键词共现图是一个逻辑
作者合作路径【时区图】
三、机构(不建议用CiteSpace做)
然后回到主界面,重新跑一遍数据
四、文献共被引分析——CiteSpace独有的强大功能
参考文献共被引:假设有一篇文章一共引用了10篇参考文献,那么这10篇文献之间就是共被引关系,他们之间会两两用一条线连接起来,和关键词共现的本质是一样的,其实就是参考文献之间的共现关系。
聚类
利用CiteSpace聚类功能进行文献共被引的聚类分析,挖掘相似文献的共同主题,这才是文献共被引的意义所在!
共被引文献聚类之后的聚类标签来自该聚类中施引文献的关键词
”#2研究进展“属于无意义的词,我们会想要把它去掉,但是这个是参考文献分析,不时关键词分析,如果是关键词分析可以在左边表格里把相关的关键词取消勾选,但是参考文献没办法知道哪些是相关的文章,所以没办法取消勾选,所以没办法把这个#2从图上消失。
关键词聚类和参考文献聚类的区别:关键词聚类是用的自己下载的文献的关键词进行分析,参考文献聚类是用的自己下载的文献的参考文献进行分析,参考文献比自己下载的文章在时间上要古老,所以参考文献聚类的结果反映的情况比关键词聚类要滞后。
虽然共被引分析方法起步早,应用广泛,但是,利用该方法进行研究前沿探测遇到的最大挑战就是时滞性。一篇文章从发表到有被引用信息或达到高被引必须经过一定的时间周期,这就导致有可能无法及时发现新型研究前沿。
所以利用共被引分析探究一个领域的研究主题及发展脉络还是比较合适的,探究研究前沿稍许有些误差。
参考文献时区图上可以看出一个学科某个领域发展快不快,发展很快的领域不会经常去引用很早的文献,比如说人工智能,肯定不会去引用早年间的文献,那都过时了,所以如果出现了一些时间跨度很大的连线,那就说明这个领域发展不快。
突现参考文献:
作者共被引——用的是参考文献上的作者,而且仅仅只是第一作者
五、期刊共被引——数据来源于参考文献里的期刊
CNKI在CiteSpace里只能分析作者、机构、关键词
想法聚类隐藏的方法:如下图,一共3个show/hide
六、WOS数据下载方法
WOS必须是核心合集
网友评论