AprioriAll算法总结
使用场景:
AprioriAll算法是在Apriori算法基础上加入了时间序列的统计方法,使数据集之间多了时间序列上的关联关系。
原理:
我们分五个具体阶段来介绍基于上面概念发现序列模式的方法。这些步骤分别是排序阶段、大项集阶段、转换阶段、序列阶段以及选最大阶段。
-
排序阶段
•对数据库进行排序(Sort),排序的结果将原始的数据库转换成序列数据库。
带交易时间的交易数据源实例
按时间序列排序处理后
-
大项集阶段
•这个阶段要找出所有频繁的项集(即大项集)组成的集合L。(使用支持度阈值筛选,然后用算出从一阶到多阶的支持度)
根据数据集,统计符合最低阈值的频繁项,转成map
大项集阶段
-
转换阶段
• 用最大频度项,替换原来的数据集,得到新的数据集,低频率的项将会被删除。
转换阶段,得到映射表
-
序列阶段
•对转换完的数据,在进行一次,大于最小支持度阈值的筛选,从一阶到多阶。 -
选最大阶段
•在大序列集中找出最长序列(Maximal Sequences)。
伪码:

如需源码,请私信我。
参考资料1:https://blog.csdn.net/qq_25269795/article/details/84202263
参考资料2:https://blog.csdn.net/WeeYang/article/details/52793864
网友评论