美文网首页
数据仓库与数据挖掘技术—关联规则

数据仓库与数据挖掘技术—关联规则

作者: 熊猫学猿 | 来源:发表于2022-07-28 06:25 被阅读0次

关联规则是形如X=>Y,

其中X⊆I,Y⊆I,X∩Y=∅。X称做规则的前提或前项,Y为结果或后项。

关联规则的支持度

关联规则的置信度

项与项集

数据库中不可分割的最小单位信息称为项。

项集的频率是包含项集的事务数,简称为项集的频率(支持计数或计数)

频繁项集:如果项集出现的频率大于或等于最小支持计数,即满足最小支持度阀值,则称它为频繁项集

强关联规则:同时满足最小支持度阀值和最小置信度阀值的规则称做强关联规则

生成频繁项集:生成所有满足最小支持度阀值的项集,这些项集被称做频繁项集

生成规则:从频繁项集中提取所有高置信度的规则。

根据项对应属性的数据类型,关联规则可以分为布尔型和数值型

布尔型关联规则处理的属性的值都是种类变化的,它显示了不同属性之间的关系,而数值型关联规则包含对数值型属性的处理

根据规则中数据的抽象层次,可以分为单层次关联规则和多层关联规则。在单层关联规则中,没有考虑属性的现实数据所具有的层次性,而在多层关联规则中,则充分考虑了属性的层次性。

根据规则中涉及到的数据的维数,关联规则可以分为单维的和多维的。

关联并不一定意味着相关或因果,有时需要识别不同的项是否相关,是否存在因果关系。

关联规则的算法:Apriori算法

频繁项集的所有非空子集都是频繁项目集

非频繁项集的超集一定是非频繁项集

FP- growth算法:分而治之。在两次扫描数据库后,把数据库压缩到一颗频繁模式数,同时保留其中的项集的关联信息。再将频繁数分成一些条件FP数,每个条件FP数和一个频繁项集相关联,最后,对这些条件FP树分别进行挖掘。将分别挖掘出的关联规则并在一起,就是所有的。

单个项目的支持度超过最小支持度称其为频繁项。

频繁模式树是一个树形结构,包括一个频繁相组成的头表,一个标记为null的根节点,它的子节点为一个项前缀子树的集合。

频繁项有表的每个表项由两个域组成:项目名称item_name和指针node_like。

FP- growth算法分为两大部分

1、构造FP树。FP树是事务数据库的压缩表示,每个事务都映射到FP树的一条路径。不同的事务可能包含若干个相同的项目。因此这些路径会有所重叠,使得事务数据能得到一定程度的压缩。

2、利用FP树产生频繁项集

FP增长算法以自底向上的方式搜索FP树,由L的倒序开始

相关文章

网友评论

      本文标题:数据仓库与数据挖掘技术—关联规则

      本文链接:https://www.haomeiwen.com/subject/afmtwrtx.html