戒学堂写作IP营打卡第105天,1378字,累计131381字
数据挖掘技术越来越广泛的应用到我们生活当中。对于数据挖掘的定义,我们也可以多角度的进行分析:从技术角度分析,数据挖掘指的是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们视野不知道的、但又是潜在有用的信息和知识的过程。[32]王宏光指出数据挖掘是对数据进行细化分析从而发现新的有价值的关系、模式及发展趋势的过程[33],简言之,数据挖掘即用技术手段从大量数据中提取出对自己有用的数据,即对数据的提取。[52]
从商业的角度分析,数据挖掘属于商业进行信息处理的一种技术,按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或者验证已知的规律性,并进一步将其模型化的有效方法。
另外,还可以从数据库、统计学以及机器学习三大角度对数据挖掘进行定义。从数据库角度来看,数据挖掘指从存储着大量数据的数据库中发现有趣的知识的过程[34];从统计学角度出发,数据挖掘指对数据集合进行分析并发现数据间的联系,以为需求者提供便于理解的、有用的数据[35];从机器学角度定义为从数据中抽取出潜在的、隐含的以及之前未知的有用信息。[52]
数据挖掘现在被应用到与我们生活息息相关的每一处,它既可以应用到银行、医学领域,也可以对企业销售、教学设计、客户挖掘、人力、财务等方面的管理,还可以应用到对机器人、高端技术的开发等。
通过研究发现,数据挖掘的主要功能有以下五点:
数据挖掘技术是对事物的概念、性质、意义等进行详尽的描述,使人们对事物能够从宏观到微观,不仅有广度,更有深度的理解。[37]
关联分析是用来发现数据库中不同项目之间存在的相似程度、差异度的有效方法,也是数据分类的基础。
聚类挖掘技术又被称为“同质分组”或者“无监督分类”。[38]它是在未知目的要求的情况下,根据数据间的关联程度将数据分为多个簇。聚类算法主要包括以下几类:基于划分的聚类、基于密度的聚类、基于层次的聚类、基于模型、图、网格的聚类以及蚁群聚类算法、普聚类算法。
通过对新数据的追加存储,以及对整体数据的比较和分析,绘制出具有一定发展变化的图像,从而起到驱动和推测作用。
数据挖掘可以及时对数据库中的数据进行分析,剔除异常值,并检测其偏差,从而保证数据的准确性及有效性。
数据挖掘的功能十分强大,能够把事物的各种特性展现在人们面前,同时,数据挖掘又是一口交叉性学科,在进行数据处理的时候综合运用到多种技术,主要包括:
(1)传统的统计方法,主要包括抽样调查、采样调查、多元统计分析以及其他统计预测方法。[39]抽样调查虽然有一定的偏差,但是省时省力;采用抽样调查,是通过样本性质去预测整体,从而提高分析效率,减少分析误差;多元统计分析则用到包括因子分析法、聚类分析、回归分析等常用的技术。
(2)可视化技术,利用图形如柱状图、折线图、扇形图等,将繁琐复杂的数据关系用图表形式进行描述。这一技术被广泛应用于数据展现中,可以直观地将数据特点展现,便于理解。[40]
(3)决策树,通过运用树形结构把相关的部口、信息、关联度形象地展现出来,此技术常见于多层级的分析案例中,如企业的管理结构示意图。[41]
(4)神经网络,即在结构分析时模仿生物的神经网络,从而系统地将数据信息展现出来,并能够使人们准确地了解其关联性,这一技术错综复杂且有待于进一步的研究应用。[42]
网友评论