VOSviewer是众多科学知识图谱软件之一,即通过“网络数据”(主要是文献知识单元)的关系构建和可视化分析,实现科学知识图谱的绘制,展现知识领域的结构、进化、合作等关系,其突出特点是图形展示能力强,适合大规模数据。
image一、VOSviewer概况
(一)开发历程
VOSviewer是荷兰莱顿大学科技研究中心[1](The Centre for Science and Technology Studies, CWTS)的van Eck 和Waltman[2]于2009年开发的一款基于JAVA的免费软件,至今已更新至1.6.6版本(2017年10月23日发布)[3],主要面向文献数据,适应于一模无向网络的分析,侧重科学知识的可视化。
(二)下载安装介绍
1、本地安装使用:JAVA(java 6或更高版本) + VOSviewer
(1)安装JAVA6或更高版本:https://www.java.com/zh_CN/
(2)下载VOSviewer安装包:http://www.vosviewer.com/download
- 提供windows、mac OS X及其他系统三种系统安装包支持)
(3)运行:解压VOSviewer安装包,直接点击exe文件运行即可
image2、网页使用:
打开http://www.vosviewer.com/vosviewer.php,下载vosviewer.jnlp文件并启动。
二、软件功能介绍
(一)主要功能介绍
VOSviewer软件设计的核心思想是“共现聚类”,即两个事物同时出现代表它们之间是相关的;这种相关关系存在多种类型,它们的强度和方向也不一样;基于关系强度与方向的测度指标聚类,可寻找不同类型的团体。
image基于共现聚类的分析单元和聚类可视化效果,VOSviewer的主要功能可归结如下:
1、支持多类数据格式
VOSviewer支持文献数据库、通用网络数据及文本数据的导入和分析。其中文献数据库指从web of science、Scopus等主流数据库中下载文献著录数据,在此基础上提取相应的字段构建共现网络,如合作网络、共词网络、共被引和耦合网络等;通用网络数据指用户可以自建节点、联系数据或者直接导入GML或Pajek等网络数据文件实现共现聚类(附录二);文本数据指VOSviewer可以从单行文本中提取主题词,基于主题词在单行中的共现进行聚类,其中文本数据可以来自用户自建文件,也可以来源于相应文献数据库中的标题或摘要字段。
image image image image2、提供多类视图解读
VOSviewer提供可视化视图包括三种:network visualization(聚类视图)、overlay visualization(标签视图)、density visualization(密度视图)。
(1)Network visualization(聚类视图)
imagevisualization:圆圈和标签组成一个元素,元素的大小取决于节点的度、连线的强度、被引量等,元素的颜色代表其所属的聚类,不同的聚类用不同的颜色表示,通过该视图可以查看每个单独的聚类,例如通过主题共现发现研究热点的结构分布、通过作者合作发现研究小团体、通过作者耦合网络发现学者对研究主题的异同情况等。
(2)Overlay visualization(标签视图)
imagevisualization:区别于Networkvisualization的特点是用户可以根据自己的研究需要,通过map file文件中的score或颜色(红、绿、蓝)字段对节点赋予不同的颜色。默认按关键词的平均年份取score值进行颜色映射。
(3)Density visualization(密度视图)
imagevisualization:图谱上每一点都会根据该点周围元素的密度来填充颜色,密度越大,越接近红色;相反,密度越小,越接近蓝色。密度大小依赖于周围区域元素的数量以及这些元素的重要性。密度视图可用来快速观察重要领域以及某一领域知识及研究密度情况。
(二)其他功能
1、数据清洗功能
数据清洗功能主要依赖于Thesaurus file文件,支持文献数据和文本数据,不支持自定义网络数据。当基于文献数据构建网络时,Thesaurus file可以被用来合并标题、作者名、机构名、国家名、被引文献;当基于文本数据构建网络时,Thesaurus file可以用来合并同义词、单词的不同拼写形式、缩写形式等。Thesaurus file每一行都包含一个标签(如人名、国家名等)和可替代标签,如果可替代标签为空,则原本的标签会被忽略显示,这可以被用来当做语料库的停顿词,或者忽略无意义的词。
2、通用词汇筛选功能
仅支持文本数据,主要针对数量较大、通用性较强但缺乏研究价值的词语,例如结论、方法等词汇,VOSviewer可以计算每个名词的相关度得分,允许用户省略较低得分的主题词,从而只对具有特定意义的词汇进行共现。
3、高级功能
(1)支持网页发布,节点及连线信息的显示可以基于HTML(仅适用于自定义数据)
(2)支持使用命令行
(3)支持内存扩充(解决处理大批量数据内存不足的问题)
三、工作流程及实现技术
imageVOSviewer的处理流程与大部分的科学知识图谱类软件类似,即文件导入——信息单元抽取(如作者、关键词等)——建立共现矩阵——利用相似度计算对关系进行标准化处理——统计分析(一般描述统计+聚类)——可视化展现(布局+其它图形属性映射),其中,关键实现技术包括:
1、数据标准化:支持不标准化、Association strength、Fractionalization LinLog/modularity。
2、聚类算法:VOS聚类
3、布局算法:VOS布局
4、其它图形属性映射:支持用户对(节点/标签/连线/簇)大小/粗细、颜色、形状、标度等图形属性的设置。
四、案例实践
(一)基于关键词共现分析信息计量领域的研究结构
1、数据来源介绍
(1)检索平台:Web of science
(2)检索式:SO=( SCIENTOMETRICS OR JOURNAL OF INFORMETRICS); 时间跨度: 所有年份;索引: SCI-EXPANDED, SSCI,A&HCI;文献类型不限。
(3)检索结果:3874篇(检索时间:2017.11.09)
(4)选取“全纪录与引用的参考文献”,并统一保存为制表符分隔文件(tab delimited)。
2、数据清洗准备工作:编制词表
(1)需要清洗哪些词?
A. 人名消歧(本例不需要)
B. 通用性强、无意义的词(主要针对标题、摘要等,关键词一般不需要):vosviewer内部提供相应的算法,可以计算出该词的通用性,但仅适应于文本数据的分析,在文献著录信息中不能使用。
C. 含义相同、表述相异:缩写词(如social network analysis和SNA)、中英混用、单复数(citation/citations)、同义词、近义词等。
(2)如何建立词表
因为建立词表的成本较高,如果经常做某个领域的分析或严谨性要求较高,可以建立相对完备的词表,一般来说,可以先将数据导入VOSviewer进行初步观察和统计,如果发现干扰词汇较多,可以只针对该批文献集建立词表。本例利用OpenRefine对关键词字段进行聚类,主要对出现频次较高、存在单复数或词性不同的关键词进行了合并,形成如下的用于数据清洗的词表:
image3、数据分析与图谱解读
(1)导入数据,并进行功能选择
A. 分析单元类型:co-occurrence-all keyword(author keyword+keyword plus)
B. 计数方式:full counting
C. 节点过滤(过滤标准为节点的出现频次≥3、节点度排名前800,大约占总节点的10%) (2)图谱调整与解读
调整布局和聚类参数等获得效果较好的聚类及布局,并导出最终的数据结合图谱进行分析。
A. 聚类视图
image可以看出,cluster1主要针对专利技术的计量,基于国家、企业层面,研究技术创新、研发及流动规律;cluster2主要是计量理论及方法的研究,其中,方法上侧重网络分析、引文分析、共词分析、知识图谱等,研究对象包括领域结构、发展演变规律等;cluster3是对计量指标的研究,基于引文的数量关系来构建和检验指标,从而运用到具体的领域,如排名、科研评价等;cluster4是对针对传统科学出版物(期刊、论文)的评价研究,除对基于引文的评价方法外,替代计量等新兴指标频次也较高,此外,对科学出版物的评价也围绕不同学科和领域展开;cluster5是针对(国家、大学、学者)科研产出的评价研究;cluster6是对科研合作的研究,主要运用网络分析的相关方法,如社会网络分析中各项测度指标,研究的层面包括学者层次,也涉及国际层面,包括简单网络分析,也涉及复杂网络,不仅设计合作的结构特征,还包括合作结构的演化,cluster7是对跨学科/领域现象的测度研究,该领域研究规模较其他领域相对较小,学者主要纳米技术领域切入对学科交叉型进行测度。
B. 密度视图
image密度视图可以发现某一研究领域的研究重点和热点,可以看到信息计量领域的研究重点包括引文分析、科研产出评价、科研合作、计量指标、网络分析和专利技术创新。
此外,可以通过时间映射的标签视图探索该领域研究演化情况。
(二)基于中文多源数据分析情报学近三年研究小团体
大部分文献网络可视化的软件主要分析单一来源数据为主,借助自定义网络数据的功能,可以分析来源不同的网络,比如多个数据库的融合,下面以情报学主要的四本中文核心期刊:情报学报(万方收录)、情报科学(CNKI收录)、情报理论与实践(CNKI和万方收录)、情报资料工作(CNKI和万方收录)近三年的发文为数据来源,建立作者合作网络,进行国内情报学研究小团体发现。
1、数据来源介绍
(1)检索平台:中国知网和万方
(2)检索式:中国知网(JN=‘情报科学’+‘情报理论与实践’+‘情报资料工作’);
万方(刊名:情报学报);起始年:2015 结束年:2017
(3)检索结果:中国知网(情报科学;情报理论与实践;情报资料工作):2550篇;万方(情报学报):335篇
2、数据格式转换
将数据导入excel后筛选出作者字段,然后利用Gephi或bibexcel等工具建立作者的共现网络,生成节点数据和关系数据,并建立VOSviewer的分析文件:AU_map.file和AU_net.file,其中map文件中为作者id、标签和发文数量,net为作者的合作关系,导出共现数据后保存在txt文件中。
image3、数据分析与图谱解读
image image image image(三)基于被引文献DOI分析信息计量领域的知识基础
在待分析的文献集中,引文的格式为一般为:(作者, 出版年, 来源期刊信息, DOI)因此在进行共被引分析时只能从被引作者和被引期刊来推测引文的主题(知识基础),而VOSviewer最新版本推出的DOI数据分析一定程度上可以弥补之前对引文进行主题分析的限制。但该功能存在一定局限,一是并不是所有文献都有DOI,分析前需要检测样本数据的缺失情况,二是VOSviewer在文本数据主题词提取算法上还存在很大不足,三是VOSviewer在利用DOI进行文本分析时耗时较大,很多情况下还需要扩容。因此下面的案例主要用来说明该功能的用法,结果上还有待考量。
1、数据来源介绍
采用案例一中的数据集
2、数据转换与分析
(1)利用VOSviewer的共被引分析功能,提取出所有的参考文献及被引数量M(dataframe);
(2)将M导入R提取参考文献中的DOI信息;
3874篇文献共引用63543篇文献,但仅有29628篇文献有DOI数据,这里以被引量在前5%(1500篇)的文献作为待分析文献集
(3)将所有参考文献的DOI保存为txt文件,利用VOSviewer的文本数据分析功能进行分析。
image六、参考资源
1、Manual:VOSviewer_1.6.6;VOSviewer_1.6.5
VOSviewer的官方指南手册,功能介绍详细
2、Eck N J V, Waltman L. Software survey: VOSviewer, a computer program for bibliometric mapping[J]. Scientometrics, 2010, 84(2):523.
VOSviewer作者发布的软件开发论文,对软件的处理流程和实现技术进行了介绍,另外也可以查一下作者的其他论文,对VOSviewer可以有更好的理解。
3、Ding Y, Rousseau R, Wolfram D. Measuring Scholarly Impact: Methods and Practice[M]. Springer Publishing Company, Incorporated, 2014.
Chapter 13 Visualizing Bibliometric Networks对主要科学知识图谱软件进行了总结和归纳。
4、Aria M, Cuccurullo C. bibliometrix : An R-tool for comprehensive science mapping analysis[J]. Journal of Informetrics, 2017, 11(4):959-975.
虽然是对bibliometrix的介绍,但可以深入了解知识图谱类软件的处理流程。
5、Börner K, Chen C, Boyack K W. Visualizing knowledge domains[J]. Annual Review of Information Science & Technology, 2003, 37(1):179-255.
6、Chaomei, Chen. Science Mapping:A Systematic Review of the Literature[J]. 数据与情报科学学报(英文), 2017(2):1-40.
【参考】
[1] 荷兰莱顿大学科技研究中心:https://www.cwts.nl/
[2] Eck N J V, Waltman L. Software survey: VOSviewer, a computer program for bibliometric mapping[J]. Scientometrics, 2010, 84(2):523.
[3] VOSviewer官网:http://www.vosviewer.com/
image
网友评论