7.2(参考答案)
1.将各个销售点的销售事务数据库中特定类型商品的销售数据通过数据预处理操作装入数据仓库,以备数据挖掘使用。
2.数据仓库中数据的维包括region,day-of-the-week,time-of-the-day,度量为销售额。
3.通过对2-D,3-D方体进行分析,利用多维挖掘方法(如构建决策树等),挖掘多维关联规则
4.通过在不同的概念分层中进行分析,结合多层关联规则挖掘方法,挖掘多层关联规则(可以与多维关联规则同时进行)
7.5(参考答案)
根据FP-growth算法,设计挖掘负相关模式集的模式增长算法;
7.7
(a)此约束是简洁的也是单调的。这一约束可以通过使用FP-growth来进行有效地挖掘:
●所有频繁的蓝光DVD电影放在频繁商品列表L的末尾
●通过全局的FP-tree的迭代挖掘产生频繁的蓝光DVD的条件模式基和FP-tree
(b)此约束是反单调的。可以通过Apriori算法进行有效地挖掘:仅仅检查那些价格之和小于$150的候选。
(c)此约束是单调的(“包含一件免费商品”是简洁的,“价格之和至少是$200”是单调的),这一约束可以通过使用FP-growth进行有效的挖掘:
●把所有频繁的免费商品放于频繁商品列表L的末尾
●通过全局FP-tree的迭代挖掘步骤,挖掘频繁的免费商品的条件模式基和FP-tree,其他的免费商品应该从这些条件模式基和FP-tree中删除。
●如果发现一个模式的商品价格和大于等于$200,在后续的迭代步骤中不需要再检查总价格是否满足条件。
●如果一个模式中的商品(或者条件模式基中的频繁商品)价格和小于$200,模式(或条件模式基)应该进行剪枝操作。
(d)此约束是不可转变的(虽然“平均价格至少为$100”和“平均价格至多为$500”都是可转变的)。此约束可以通过FP-tree进行有效地挖掘:
●所有的频繁商品按价格降序排列
●如果模式和条件基中产品的平均价格小于$100,这个模式和它的条件模式基可以被剪枝。
●如果一个模式和它的条件模式基的商品平均价格大于$500,这个模式和它的条件模式基可以被剪枝。
7.8
通过研究事务的核模式,我们发现与较短的模式相比,较长的或巨型模式有更多的核模式,巨型模式更鲁棒。所以,给定一个较小的c,巨型模式通常比短模式拥有更多的长度为c的核后代;所以,从长度为c的模式的完全集中随机抽取,选中巨型模式的核后代的可能性更大。在该完全集中,识别巨型模式的所有核后代,然后合并它们,这将产生巨型模式的更长的核后代,使我们有能力沿着巨型模式核模式树的一条通往该巨型模式的路径跳跃。因此,通过迭代步骤,巨型模式可以通过合并其核模式的真子集产生。例如,abcef(在此将其看做巨型模式)可以通过只合并它的两个核模式ab和cef产生,而不必合并它的全部核模式。
网友评论