数据挖掘的起源,在1995年知识发现(KDD, Knowleage Discovery in Database)国际会议上被定义为"在众多数据中寻找出有用且未知数据的过程". 数据挖掘诞生于市场条查的现场,被人们熟知的的一个案例就是"啤酒与尿片"购买的分析.
与“回归分析”这种写在统计学书上的词汇相比,“Neural Network”(神经网络)这样的引文单词确实显得更加时髦专业。但是,当我们仔细询问究竟为了什么或者出于什么目的进行分析的时候,却发现与数据挖掘相比,我们真正应该使用的确是统计学方法。就像“根据在人工智能领域的研究,对人类的神经元进行模拟实验”之类的说明,听起来非常高大上。但是只要掌握数据挖掘和统计学方法之间的区别和共同点,可以容易理解。
一 数据挖掘的萌芽
数据挖掘的黎明期,经常接触数据的计算机技术人员和身出一线的市场调查员们发明各种各样的方法。比如啤酒和尿片的“购物车分析”,这时候有数据挖掘的指标,信赖度,改善度,支持度,消费组合被引入。信赖度:“购买某种商品的人同时购买其他的商品的概率”,改善度:“在所有顾客中啤酒购买率30%与购买尿片的顾客中啤酒购买率40%相比,改善率就是1.33(40/30)",通过简单计算可以找出具有关联性的商品,这是购物车分析的优点。
但是与购物车相比,统计学有更加简便的工具----相关分析。用卡方检验来特带,卡方值越大改善度越大。
目前这种购物车分析方面的数据挖掘,被广泛应用在购物推荐中。
二 高级数据挖掘法与人工智能
除了购物车分析这种简单计算外,逐渐发展出个家高级的运算逻辑的方法,神经元网络,支持向量机,聚集性分析。在人工智能领域中,根据思考方法不同进行分类;在数据挖掘中采用从人类认知功能分类的法则。
1 聚集性分析
2 支持向量机
3 神经元网络
希望通过结构化知识,提高学习效率,让你的工作时间更值钱,赚钱更高效!------------《 数据分析笔记》
希望通过结构化知识,提高学习效率,让你的工作时间更值钱,赚钱更高效!------------《 数据分析笔记》
网友评论