数据仓库与数据挖掘技术—关联规则

作者: 熊猫学猿 | 来源:发表于2022-07-28 06:25 被阅读0次

数据仓库与数据挖掘技术—关联规则
[转]Spark购物篮分析:关联规则挖掘
推荐系统第四周-基于频繁模式的推荐系统
R语言与关联规则挖掘—购物篮分析
数据仓库快速入门教程19数据挖掘与数据仓库的区别
第一章数据挖掘基础
数据挖掘-关联规则挖掘
fp_growth频繁项集和关联规则Spark ML调用实现
手绘关联规则挖掘算法
数据挖掘知识

关联规则是形如X=>Y,

其中X⊆I，Y⊆I，X∩Y=∅。X称做规则的前提或前项，Y为结果或后项。

关联规则的支持度

关联规则的置信度

项与项集

数据库中不可分割的最小单位信息称为项。

项集的频率是包含项集的事务数，简称为项集的频率（支持计数或计数）

频繁项集：如果项集出现的频率大于或等于最小支持计数，即满足最小支持度阀值，则称它为频繁项集

强关联规则：同时满足最小支持度阀值和最小置信度阀值的规则称做强关联规则

生成频繁项集：生成所有满足最小支持度阀值的项集，这些项集被称做频繁项集

生成规则：从频繁项集中提取所有高置信度的规则。

根据项对应属性的数据类型，关联规则可以分为布尔型和数值型

布尔型关联规则处理的属性的值都是种类变化的，它显示了不同属性之间的关系，而数值型关联规则包含对数值型属性的处理

根据规则中数据的抽象层次，可以分为单层次关联规则和多层关联规则。在单层关联规则中，没有考虑属性的现实数据所具有的层次性，而在多层关联规则中，则充分考虑了属性的层次性。

根据规则中涉及到的数据的维数，关联规则可以分为单维的和多维的。

关联并不一定意味着相关或因果，有时需要识别不同的项是否相关，是否存在因果关系。

关联规则的算法：Apriori算法

频繁项集的所有非空子集都是频繁项目集

非频繁项集的超集一定是非频繁项集

FP- growth算法：分而治之。在两次扫描数据库后，把数据库压缩到一颗频繁模式数，同时保留其中的项集的关联信息。再将频繁数分成一些条件FP数，每个条件FP数和一个频繁项集相关联，最后，对这些条件FP树分别进行挖掘。将分别挖掘出的关联规则并在一起，就是所有的。

单个项目的支持度超过最小支持度称其为频繁项。

频繁模式树是一个树形结构，包括一个频繁相组成的头表,一个标记为null的根节点，它的子节点为一个项前缀子树的集合。

频繁项有表的每个表项由两个域组成：项目名称item_name和指针node_like。

FP- growth算法分为两大部分

1、构造FP树。FP树是事务数据库的压缩表示，每个事务都映射到FP树的一条路径。不同的事务可能包含若干个相同的项目。因此这些路径会有所重叠，使得事务数据能得到一定程度的压缩。

2、利用FP树产生频繁项集

FP增长算法以自底向上的方式搜索FP树，由L的倒序开始

网友评论

本文标题：数据仓库与数据挖掘技术—关联规则

本文链接：https://www.haomeiwen.com/subject/afmtwrtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

数据仓库与数据挖掘技术—关联规则

相关文章