全球零售业巨头沃尔玛在对消费者购物行为分析时发现,男性顾客在购买婴儿尿片时,常常会顺便搭配几瓶啤酒来犒劳自己,于是尝试推出了将啤酒和尿布摆在一起的促销手段。没想到这个举措居然使尿布和啤酒的销量都大幅增加了。如今,“啤酒+尿布”的数据分析成果早已成了大数据技术应用的经典案例,被人津津乐道。
关联性-->>看似杂乱的数据隐藏的关系-->>用户的行为习惯-->>用户以后的倾向-->>预测
-
十大算法之一
-
最经典的挖掘关联关系的算法
-
经常用于购物车分析
- 使用候选项集寻找频繁项集,下面是玩家购买的游戏数据
ID |
GameID |
ID |
GameID |
1 |
a,b,c |
6 |
a,c,e |
2 |
b,c |
7 |
b,c |
3 |
b,d |
8 |
a,b,c,d |
4 |
a,b,c,e |
9 |
a,c,e |
5 |
a,b |
10 |
a,b |
- 候补选集,计算a,b,c,d,e在选集中出现的频率
项集 |
频率 |
a |
0.7 |
b |
0.8 |
c |
0.7 |
d |
0.2 |
e |
0.3 |
项集 |
频率 |
a |
0.7 |
b |
0.8 |
c |
0.7 |
d |
0.2 |
e |
0.3 |
- 得到的项集与a,b,c,d,e相互匹配,得到a,b|a,c|a,e......,计算在数据中的频率
项集 |
频率 |
项集 |
频率 |
a,b |
0.5 |
b,d |
0.2 |
a,c |
0.5 |
b,e |
0.1 |
a,d |
0.1 |
c,d |
0.1 |
a,e |
0.3 |
c,e |
0.3 |
b,c |
0.5 |
d,e |
0 |
项集 |
频率 |
a,b |
0.5 |
a,c |
0.5 |
a,e |
0.3 |
b,c |
0.5 |
b,d |
0.2 |
c,e |
0.3 |
- 得到的项集与a,b,c,d,e相互匹配,得到a,b,c|a,b,d|a,b,c|.......,计算在数据中的频率
项集 |
频率 |
a,b,c |
0.3 |
a,b,e |
N/A |
a,b,c |
N/A |
a,b,d |
N/A |
a,c,d |
N/A |
a,c,e |
0.3 |
b,c,d |
N/A |
b,c,e |
N/A |
c,d,e |
N/A |
项集 |
频率 |
a,b,c |
0.3 |
a,c,e |
0.3 |
- 得到的项集与a,b,c,d,e相互匹配,得到a,b,c,d|a,b,c,e|a,c,d,e
项集 |
频率 |
a,b,c,d |
N/A |
a,b,c,e |
N/A |
a,c,d,e |
N/A |
项集 |
项集 |
a,b |
a,b,c |
a,c |
a,c,e |
a,e |
b,d |
b,c |
c,e |
- 用apriori算法实现关联规则挖掘的流程全部结束,可以看出的是,apriori算法要生成大量的候选项集,每生成频繁项集都要生成候选项集。其次要一直迭代重复的扫描事物数据来计算支持度。
网友评论