常见挖掘模型有以下几类:
1 聚类
聚类(Clustering)是根据特定的标准将数据划分为不同的组。
聚类和分类(Classification)的不同在于:聚类并不决定于事先定义好的种类。
聚类是一种强大的间接知识发现的技术,它大大降低了数据的复杂性,提高了数据挖掘成功的可能性。
聚类产生的结果也需要人们去解释和理解。聚类是将物理或抽象对象的集合组成为由类似的对象组成的多个类的过程。
聚类算法应用很广泛,比如,聚类能帮助市场分析人员从用户基本信息库中发现不同的用户群,有利于用户的细分,并且用不同的购买模式来刻画不同的消费群体的特征。
2 关联
关联分析是指如果两个或多个事物之间存在一定的关联,那么其中一个事物就能通过其他事物进行预测,其目的是为了挖掘隐藏在数据间的相互关系。
在数据挖掘的基本任务中,关联(Association)和顺序序贯模型(Sequencing)的关联分析是指搜索事务数据库(Transactional Databases)中的所有细节或事务,从中寻找重复出现概率很高的模式或规则。
关联分析是寻找同一事件中出现的不同项的相关性,比如,一次购买活动中所买不同商品的相关性,利用这些关联规则可以了解用户的行为,这对于改进电商商务活动的决策很有帮助,比如,可以帮助改进商品的摆放等。
3 决策树
决策树(Decision Trees)主要是指分类和回归树(Classification andRegression Trees,CART)。它是运用最广泛的数据挖掘算法,其中分类树(Classification Tree)主要用于数据记录的标记和归类;回归树(RegressionTree)主要用于估计目标变量的数值。决策树的最大优点在于它的易于理解,缺点是难于处理关系复杂的数据。决策树是一种常用于预测模型的算法,预测技术乃依据某一特定对象属性,观察其过去的行为或历史资料,推算其未来的值会是多少。决策树是同时提供分类和预测常用的方法。
4 神经网络
神经网络(Neural Networks)是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。神经网络广泛地应用于预测模型的建立,与决策树一样,它是目前数据挖掘中运用最多的算法之一。神经网络的优势在于对复杂问题的预测,但它不能解释预测结果。因此,当对规则的解释是问题的关键时,神经网络并不是一个好的选择。此外,当输入变量过多(成百上千)时,神经网络难以得到满意的结果,这时,通常采取神经网络和决策树结合的方法。
神经网络常用于解决根据客户信息,预测客户流失的可能性,以及如何从众多申请经费或者纳税中发现欺诈等问题。
5 回归
回归分析的主要内容为从一组数据出发确定某些变量之间的定量关系式,即建立数学模型并估计其中的未知参数。估计参数的常用方法是最小二乘法;对这些关系式的可信程度进行检验;在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些)自变量的影响是显著的,哪些自变量的影响是不显著的,将影响显著的自变量选入模型中,而剔除影响不显著的变量,通常用逐步回归、向前回归和向后回归等方法;利用所求的关系式对某一生产过程进行预测或控制。回归分析的应用是非常广泛的,利用统计软件包可使各种回归方法的计算十分方便。
回归常用于自变量与因变量的影响关系,如使用回归分析可以解决产品质量如何影响用户满意度的问题。
网友评论