来源:Visual Analytics for Cyber Security Domain: State-of-the-Art and Challenges
视觉分析是数据分析的一个复杂的子领域,它集中于使用信息可视化方法,通过使用可视化和图形表示来促进数据的有效分析。在网络安全领域,有效的数据可视化可以帮助领域分析人员推断出有价值的信息,从而构建成功的策略来减少网络攻击并提供决策支持。我们对网络安全领域的现状进行了调查,分析了主要的挑战,并讨论了未来的趋势。我们总结了大量的网络安全和数字取证可视化工作,使用五个W的五个问题方法,以及如何(为什么、谁、什么、如何、何时和何处)方法作为方法论背景。我们使用J. Bertin的图形符号学理论和VIS4ML本体作为视觉分析的理论基础对作品进行分析。因此,我们制定了未来该领域研究发展的主要挑战。
1介绍
可视化分析是数据分析的一个复杂的子领域,它关注于使用信息可视化方法,通过使用可视化和图形化表示[1]来促进数据的有效分析。可视化在多属性、多维数据分析和认知领域中起着决定性的作用。
可视化数据分析有助于识别复杂数据[2]中的结构、重复、异常、模式、趋势和异常。网络安全数据可视化的目的是通过提供有效的工具和环境来支持领域专家进行决策,从而提高我们网络基础设施的安全性和安全性。
信息可视化方法开始应用于信息安全领域,特别是对网络流量和网络攻击[4]的可视化。这些可视化技术对态势感知[5]特别有用。有效的数据可视化可以推断出有价值的见解,从而使领域分析师能够构建成功的策略并做出明智的决策。在网络攻击或攻击后的调查中,确定谁(用户)和什么(应用程序)应对攻击负责是一项重要的任务。网络安全利益相关者需要有效的可视化方法和工具,支持他们以可视化和交互式的方式以最少的努力探索和分析大量日志。
在这次调查中,我们总结了大量的网络安全和数字取证可视化工作,使用五个W的五个问题方法,以及如何(为什么,谁,什么,如何,何时,何地)作为方法论背景[7]。
在[8]中使用了类似的方法来组织深度学习领域的视觉分析调查。通过以这种方式构建调查,可以分析许多已知的研究论文。这种结构化组织捕获网络安全可视化的需求、涉众和方法,并在已知文献的上下文中定位其他作者的作品。最后,我们概述了当前的研究挑战。
我们期望这项调查将为研究人员和实践者提供理解可视化如何有助于网络安全领域的研究和决策。
2方法
对安全性研究进行全面概述,使用五个问题分别分析研究贡献,包括谁、什么、如何、何时、何地以及已知研究的多方面贡献。
为了强调和分析视觉分析对网络安全领域的影响,我们的调查分析了网络安全、数字取证、人机交互、可用性工程和计算机视觉领域的交叉领域的大多数相关工作。我们强调了视觉分析是如何成为解决网络安全和数字取证等一些最大的问题不可或缺的,如网络数据流的解释。
对于论文搜索,我们使用了Clarivate Analytics Web of Science、Scopus、IEEE Xplore和ACM数字图书馆数据库。对于每一项工作,我们分析了元数据、抽象的、显式的贡献、制定的挑战和需求(如果有的话)。有了这些信息,我们使用五个问题框架来分析现有的可视化和可视化分析在网络安全方面的工作如下:
为什么我们要在网络安全领域使用可视化?
谁是使用和受益于网络安全可视化的利益相关者?
我们可以在网络安全中可视化哪些数据、特性和关系?
如何将网络安全数据可视化?
可视化在网络安全中的应用?
网络安全可视化在哪里被使用?
我们进一步的分析是基于J. Bertin的图形[9]的符号学理论。这一理论基于一个共识,即交流涉及使用有意义的符号来共享知识。Bertin概述了主要的视觉变量(颜色、大小、形状、色调、纹理和方向),并提出了如何应用视觉变量来表示不同类型的信息,如定量、顺序、选择或联想。
虽然上述理论框架为可视化提供了许多有用的建议和指导,但在实践中,它们缺乏用于特定领域(如网络安全领域[10])的概念操作化。VIS4ML本体提供了一种方法方法,为可视化分析[11]提供了理论基础。
3研究结果
3.1why:网络安全可视化的动机
网络安全利益相关者希望在网络安全领域可视化数据的最重要原因之一是理解和解释大量的数据,否则这些数据的庞大规模会让专家不知所措。为了应对这些数据带来的挑战的规模和复杂性,网络安全分析师拥有强大的分析和可视化工具[12]。
数据可视化通常被集成到网络安全平台中,提供一种直观的方式来查看活动,从而提高网络操作的效率。找到关于高警告的真知灼见的一种方法是识别异常。模型和趋势很有趣,但更多时候网络分析师需要找到特别的结果。同时查看与许多案例或警报相关的数据可以揭示需要进一步调查的异常活动模式。
3.2 who:网络安全可视化用户
基于用户的评估为数据可视化系统的可度量的好处和可视化工具对实现安全目标的影响提供了有效的证据。分析人员依赖图形可视化来提供其连接数据的全局和/或局部视图。对于网络安全可视化专家来说,它的主要角色是决策支持[13]。匹配这些目标是困难的,有时是不可能的,因此有必要了解评估不同数据集或系统的使用之间的折衷。
3.3what:用于可视化的网络安全数据
图形可视化是任何网络安全战略的重要组成部分。分析人士正试图披露来自复杂日志的见解,这些日志限制了他们的调查权力,并使系统容易受到攻击。网络数据可视化系统需要帮助分析人员找到决策者的位置,并创建定制化的网络可视化结果,允许分析人员以自己的速度和规模来研究数据。分析师必须能够分享数据见解。需要足够的可视化功能,包括过滤、时间分析、地理空间可视化、异常检测、社会网络分析和节点分组。在网络攻击的情况下,数据分析师不能阻止攻击,但是图形的可视化仍然可以帮助他们理解和防止攻击的重现。
与实际用户协作获得的可视化数据系统对象通常是令人信服的实践示例,因为它们可能会在组织内公开以前未知的信息。最重要的是表演者的布局、过滤和社交网络,但它必须与一个强大的渲染引擎相结合。然而,现实生活中的数据集很少被发表,甚至是匿名的,因此很难在后期的研究[14]中进行meta分析。
这些数据对象集的大小和复杂性也是无法控制的,不能认为它们与其他组织中的数据集是等同的。因此,为了支持未来的研究,实际可视化数据对象集的特征应该描述其特征和属性。
3.4how:可视化的隐喻和技术
图标将数据项可视化为图片,并将数据映射到可视元素。图标可以利用形状(如线、带或条)和视觉特性(如颜色、纹理或形状的直径)。该表现形式可以补充纹理和动画[15]。例如,在VisSecAnalyzer[16]中,每个网络对象由一个图标显示,而图标的背景颜色编码为网络主机计算的安全度量值,如风险级别、死亡率或重要性(图1)。
径向图标是基于车轮的隐喻,使用径向布局来反映空间分布和多维属性。一个例子是IDSRadar,它是一个可视化框架,用于在实时[17]中可视化入侵检测系统(IDS)警报。在这里,当可视化大量的网络数据时,一个轮子展示了其紧凑布局的优点(图2)。
词云是一个关键字的文本可视化技术,其中每个视觉特性表示一个文本块(如标签)在一个文档中。例如,在TagsNet[18]中,字云用于电子邮件网络描述的取证分类(图3)。
热图(或密度图)根据数据的分布将离散的数据点组合成连续的表示形式。Heatmap很好地处理了重叠的问题,非常适合定性分析。例如,在SemanticPrism[19]中,heatmap用于显示策略或活动的地理空间分布(图4)。
图可以用来可视化复杂网络中的动态和相似性。虽然图可以自然地表示计算机网络,但图通常存在可伸缩性问题。为了缓解这些问题,可以使用图形聚类或节点着色等其他可视化方法。例如,在ENAVis中,[20]有效地表示计算机网络中的活动(图5)。
气泡图对于识别数据中的集群和异常值是有效的,并且与数据集的大小无关。例如,在BubbleNet[21]中,气泡图与地图相结合,识别并总结网络安全数据地理分布中的模式(图6)。
冰柱图是一种表示分层/聚集数据的方法。例如,在LifeFlow [22t]中,使用冰柱图来可视化时序事件的时间分布(图7)。
交互式镜头(或语义缩放)允许用户在不同的缩放级别上强调大数据集的不同特征,以提供交互式分析功能。例如,在Portvis[23]中,语义缩放可以通过提供放大和缩小功能来详细显示信息(图8)。
“河流”的比喻应用于时间可视化,信息流表示从左到右的时间进程。河流比喻可以用冲积图来表示。例如,在[24]中,这种可视化表示时间变化(图9)。
树状图使用一组不同大小和颜色的块提供数据的层次视图。它呈现了复杂多维度相互关联数据的全局视图。例如,在Prefuse visualization toolkit[25]中,treemap可视化用于显示源代码的层次结构,而颜色表示最后修改的日期(图10)。
3.5何时:何时可视化应用于网络安全?
最常见的是,可视化被用于网络安全数据的历史分析,例如,用于攻击后的数字取证。越来越多的工作解决了数据的实时分析和可视化问题,例如,实时检测网络攻击或恶意软件的传播。最后,第三个研究方向是预测未来[26]的网络攻击。
3.6 Where:何处使用网络安全可视化?
网络威胁情报对象可以是数据文件中的任何属性。所有这一切都是由于这些数据庞大、复杂和多变。情报是基于证据的威胁知识。数据可视化系统的任务是帮助用户做出决策和反应。我们需要为他们提供情报——无论是关于工具和技术的技术信息,还是对手正在使用的信息,还是关于参与者动机或不同活动的上下文情报。图形是交付这种规模、复杂性和多样性的理想方式,用户可以轻松地管理[27]。
3.7结果总结
根据视觉变量[9]的特点,我们的调查结果如表1所示:
Associative (A)::这个视觉变量的变化是否足以让我们将他们视为一个群体?
Selective (S):这个视觉变量的变化是否足以让我们从一个组中选择它?
Ordinal (O):这个变量的变化是否被认为是有序的?
Numerical (N):是否可以从这个可视变量的变化中获得数值读数?
4结论
本文概述了网络安全领域数据的可视化分析方法和技术。基于我们的分析结果和发现,我们总结了未来视觉分析研究在网络安全领域的关键挑战。
可伸缩性。可用于分析的数据的增长对有效地可视化网络安全数据提出了巨大的挑战。大多数可视化分析技术都无法扩展到极端规模的数据。为了解决可伸缩性问题,有效处理大量网络数据的能力、可视化分析方法(如巨大的[42])已经被提出。尽管这种可视化的可扩展性在未来将继续吸引更多的兴趣。
报告生成。近年来,报告生成方法在网络安全领域备受关注。可视化分析工具通常允许创建分析结果的报告。从可视化生成报告(或洞察)可以提供对分析[43]期间发现的数据模式的洞察。然而,可视化生成报告仍处于起步阶段,使用的方法是启发式和主观性的,给研究人员留下了很大的研究空间。
可靠性。不确定性建模对于确保可视化分析的可靠性和可信度以及支持做出明智的决策至关重要。很少有方法能将网络安全领域的不确定性信息可视化地显示出来。然而,仍然没有得到广泛认可的技术。
异构数据分析:安全分析师通常通过分析操作系统日志和社交网络等不同的信息源来获取信息。尽管已经提出了各种各样的技术来单独地可视化数据源,但是在这些视图之间开发一致和简洁的交互机制仍然是对[27]的挑战。
协作智能。当试图解决系统漏洞时,事件响应团队通常必须紧密合作。协作视觉分析[45,46]强调了在远程处理同一问题的协作网络安全专家之间共享和交换知识和洞察力的重要性。在不同的工具和涉众之间集成可视化数据显示的需求在未来将继续是高度相关的。
态势感知。从计算机网络中提取的大量数据和数据之间关系的高度复杂性阻碍了专家实现态势感知。最终目的是向网络安全专家提供安全事件的鸟瞰图,以提供决策支持和态势感知[47,48]。
可用性。为了提供有效的决策支持,可视化接口应该具有良好设计的系统的总体外观和美观,同时确保满足系统的目标受众的需求?必须确保用户体验的主要组成部分包括熟悉度、易学性、响应性、性能、直观性、效率、帮助和令人满意的[49]。
隐私。安全可视化系统在检查网络流量或分析日志分析用户行为时,应在用户隐私优先的情况下,保证对用户隐私数据的保护。
人为因素。有效地利用颜色、纹理、形状、运动等,可以有效地捕捉人的注意力,这与实时监控任务[50]高度相关。
网友评论