《机器学习实战》读书笔记12

作者: whybask | 来源:发表于2017-07-02 20:54 被阅读42次

思维导图
机器学习实战之KNN算法
《机器学习实战》读书笔记12
K-Means算法
机器学习实战中文版 pdf高清+源代码
机器学习实战-knn
2019-03-29
00-Scikit-learn学习笔记系列文章
支持向量机（SVM）入门理解与推导
机器学习实战-数据探索(变量变换、生成)

FP-growth算法概述

在上一章介绍了“关联分析”这种无监督学习的原理。其中提到了利用Apriori算法来发现频繁项集。本章节介绍的FP-growth算法也是一种发现频繁项集的方法，该算法只需要对源数据集进行两次遍历，因此会比Apriori算法快两个数量级以上。

优点：运行速度快于Apriori算法。
缺点：原理比较复杂，理解比较困难。
使用数据类型：标称型数据。

入门案例

通过一个简化版的数据集，我们来深入浅出的理解FP-growth算法。

FP-growth算法第1遍对数据集扫描，是找出满足最小支持度的元素，本例中“支持度>=3”，所以“鸡肉、橙汁、带鱼、......”等元素因不满足支持度要求而被过滤了。为了更好的构建FP树，还对过滤后的结果进行了排序，如“毛巾”出现了5次，最多，所以“毛巾”在每一行都排在了第一。

FP-growth算法的第2遍扫描，是构建FP树。以上图为例，用“事务001 毛巾, 牛奶”构建了两个节点，用“事务002 毛巾,灯泡,豆腐,啤酒,风扇”构建了另外的新节点，但注意“毛巾”节点只是把计数值从1更新为2。

依次用所有的事务数据构建FP树，最终我们得到了如上图所示的FP树。左侧的“头指针表”也很有用，记录了所有单节点的总体计数值，并且还可以用来指向给定元素的第一个节点。

当FP树构建完成后，就可以抽取频繁项集了。由于涉及到比较复杂的数据结构，所以FP-growth算法的原理比较难懂，但好在原书中提供了通用的代码，因此我们可以更加关注如何使用该函数库完成我们自己的任务。但是请注意：FP-growth算法的目的只是找出频繁项集，它并不具备关联分析的能力，如果要做关联分析，还需要回顾上一节的内容。