~~~相关案例阅读书籍《啤酒和尿布--神奇的购物篮分析》~~~
链接:https://pan.baidu.com/s/1mi02ALy 密码:m8ab
以下笔记来源于《数据挖掘--方法与应用》 清华出版社 第四章相关性与关联规则
相关概念:
1、一般人们会对支持度较高的商品感兴趣,即当支持度达到一定阈值时,才有被挖掘的意义。
(这个是我随便敲的:(2、相关性是什么?
3、关联规则是什么?
从图中可以看到,我们买了牛奶,很有可能会去买可乐,暗示这两样物品之间可能存在的关系称为关联规则。
4、支持度是什么?(support)
在学概率论与数理统计时,我们曾了解过古典概率,从图中可以看到一共有7个人,同时选了牛奶和可乐的占了3个,所以它的概率为3/7,在关联规则中它叫支持度。
5、阈值是什么?
也就是最小支持度计数,某一条件出现的最少次数。
6、频繁项集是什么?
当某种商品的支持度超过最小支持计数时,这个商品就叫做频繁项集。
7、置信度是什么?(confidence)
要理解置信度我们先要理解什么是置信区间,要理解置信区间我们要着重掌握用样本估计总体这一核心思想。
首先真值只能是总体参数,而我们选取的数据是样本数据,点估计是样本参数的真实值,而我们需要估计的是总体参数。
90%的置信度的意思不是这个区间有90%的概率包含真值。
真值并不会发生变化,置信区间会发生变化。
比如说一个人20岁,20岁这个现状是不会发生变化的,我们可能猜他18~22岁,也可能是觉得他25左右....
所以置信度的意思是,在100个置信区间中,有90个区间cover 了这个真值。
故而我们拿出一个置信区间的时候,就觉得它有90%的概率会包含真值。
8、如何计算置信度?
confidence(A→B)=P(B|A)=support(A ∪B)/support(A)=P(A∪B)/P(A)
可以看出在关联规则中的置信度类同于概率论与数理统计中的条件概率。
基底是A还是B呢?若是A到B,就是在A的条件下成为B的概率,那么基底就是A。
9、提升度是什么?(left)
for example:(例子来源于百度知道)贷款客户的违约率为2%,你用数据挖掘方法建立了一个预测贷款客户将来违约可能性的模型,用这个模型将客户进行评分后,违约可能性最高的10%的客户中,实际违约客户占了50%,说明你所建立的模型对于这一部分客户识别的提升率是25(50%是2%的25倍),你只要做好这10%的客户的贷后管理,就能够避免50%违约客户的损失,比起你毫无目的地对所有贷款客户进行贷后管理效率要高得多。
9、如何计算提升度?并且进行判断。
在图中我们可以看出有ABCDF五个人买了牛奶,并在该条件下有ACF三个人买了可乐,说明P(可乐|牛奶)=3/5,七个人中有五个人买了可乐,说明大家会去买可乐的概率为5/7,将3/5除以5/7得到3/7,这个值就是提升度(left)。
当left >1时,说明这个关联规则是可行的。
= 1,说明实行不实行都没有差别。
< 1,哎算了算了还是原来的样子吧,可能买牛奶的都是健康人士都懒得看可乐一眼。
10、什么是强关联规则?
满足最小支持度和最小置信度的关联规则叫做强关联规则。
(题外话,最小支持度和最小置信度都是大家自己设的,但是怎么设,就是经验之谈了)
10、强关联规则一定是有意义的吗?
这里就又要把我们的left拿出来溜溜啦~~
只有left>1,(当然有时候=1也是ok的) 强关联规则才有意义。
11、性质?
如果一个项集是频繁的,那么它的子项集也是频繁的,强调了反单调性。
12、采用什么方式?
逐层搜索。(爬楼梯回答问题,挨个回答问题,回答上了就上一层楼,这时将其中两人捆绑成一组,按组回答问题,回答上楼,再讲其中三人捆绑成一组,按组回答问题,直到将n个人都变成一队并回答成功问题为止)
13、举例计算。
14、瓶颈
1)多次扫描事务数据库,需要很大的I/O负载。
因为我们要对产生的候选集进行扫描,确定每一个元素都已通过验证。如果一个频繁大项集包含10项,那么至少要扫描10次。
2)可能产生庞大的候选集。
15、优化
1)基于散列的方法。
2)事务压缩
3)基于数据划分的方法
4)基于采样的方法
16、用R进行apriori算法(希望我赶紧弄完github然后把案例放上面去嘤嘤嘤)
网友评论