数据挖掘的任务和方法
数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识的决策。数据挖掘
的任务主要是关联分析、聚类分析、概念描述、预测、时序模式和偏差分析等。
(1) 关联分析 关联规则挖掘是由 Rakesh Apwal 等人[64]首先提出的。两个或两
个以上变量的取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的
一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分
析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关
联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需
求。
(2) 聚类分析[12]聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼
此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模
式,以及可能的数据属性之间的相互关系。聚类技术主要包括传统的模式识别方法
和数学分类学。
(3) 概念描述[54] 概念描述就是对某类对象的内涵进行描述,并概括这类对象
的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特
征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中
所有对象的共性。
(4) 预测。预测是利用历史数据找出变化规律,建立模型,并由此模型对未
来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常用预测方差来
度量。
(5) 偏差分析。数据库中的数据常有一些异常记录,从数据库中检测这些偏
差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、
观测结果与模型预测值的偏差、量值随时间的变化等。偏差分析的基本方法是,寻
找观测结果与参照值之间有意义的差别。
目前,数据挖掘的方法有神经网络、遗传算法、支持向量机、聚类方法、决策
树、粗集方法、统计分析方法和神经模糊集方法等等[13]。
1.4.2 零售业中的数据挖掘
通过条形码、编码系统、销售管理系统、客户资料管理及其它业务数据中,可
以收集到关于零售企业商品销售、客户信息、货存单位及店铺信息等的信息资料。
利用数据挖掘工具对这些数据进行分析,可以为高级管理人员、分析人员、采购人
员、市场人员和广告客户等提供高效的科学决策工具。如对商品进行购物篮分析,
分析哪些商品顾客最有希望一起购买,被业界广为传诵的经典——Wal-Mart 的“啤
酒和尿布”,就是数据挖掘透过数据找出人与物间规律的典型。在零售业应用领域中,
数据挖掘在很多方面都有卓越表现。
1. 销售全局:通过分类信息—按商品种类、销售数量、商店地点、价格和日期
等了解每天的运营和财政情况,对销售的每一点增长、库存的变化以及通过促销而
提高的销售额都可了如指掌。零售商店在销售商品时,随时检查商品结构是否合理
十分重要,如每类商品的经营比例是否大体相当。调整商品结构时需考虑季节变化
导致的需求变化、同行竞争对手的商品结构调整等因素。
2. 商品分组布局:分析顾客的购买习惯,考虑购买者在商店里所穿行的路线、
购买时间和地点、掌握不同商品一起购买的概率:通过对商品销售品种的活跃性分析
和关联性分析,用主成份分析方法,建立商品设置的最佳结构和商品的最佳布局。
3. 低库存成本:通过数据挖掘系统,将销售数据和库存数据集中起来,通过数
据分析,以决定对各种商品各色货物进行增减,确保正确的库存。数据仓库系统还
可以将库存信息和商品销售预测信息,通过电子数据交换(EDI)直接送到供应商那
里,这样省去商业中介,而且由供应商负责定期补充库存,零售商可减少自身负担。
4. 市场和趋势分析:利用数据挖掘工具和统计模型对数据仓库的数据仔细研
究,以分析顾客的购买习惯、广告成功率和其它战略性信息。利用数据仓库通过检
索数据库中近年来的销售数据,作分析和数据挖掘,可预测出季节性、月销售量,
对商品品种和库存的趋势进行分析。还可确定降价商品,并对数量和运作作出决策。
5. 有效的客户关系管理:可以通过对一种厂家商品在各连锁店的市场共享分
析,客户统计以及历史状况的分析,来确定销售和广告业务的有效性。通过对顾客
购买偏好的分析,确定商品促销的最优目标客户群体,以此来设计各种相应的商品
促销方案,并通过商品购买关联分析的结果,采用交叉销售和向上销售的方法,挖
掘目标客户的购买力,实现准确的商品促销。
文章来源:《零售业供应链中的采购、库存和分销优化研究》,姚淑琥 ,上海交通大学
网友评论