Stage 1 数学基础: 数据挖掘

作者: AdelaZhou | 来源:发表于2019-03-27 11:43 被阅读0次

Stage 1 数学基础: 数据挖掘
Stage 1 数学基础: 回归分析
Stage 1 数学基础：矛盾的世界
Stage 1 数学基础：统计的步骤
数据挖掘需要什么数学基础（三）
Python学习资料
零基础数据挖掘学习清单
一篇非常棒的安装Python及爬虫入门博文！
Stage 1 数学基础：统计学思考方法
读了十本书丨Hadoop大数据分析及数据挖掘读书笔记，一文总结

数据挖掘的起源,在1995年知识发现(KDD, Knowleage Discovery in Database)国际会议上被定义为"在众多数据中寻找出有用且未知数据的过程". 数据挖掘诞生于市场条查的现场，被人们熟知的的一个案例就是"啤酒与尿片"购买的分析.

与“回归分析”这种写在统计学书上的词汇相比，“Neural Network”(神经网络)这样的引文单词确实显得更加时髦专业。但是，当我们仔细询问究竟为了什么或者出于什么目的进行分析的时候，却发现与数据挖掘相比，我们真正应该使用的确是统计学方法。就像“根据在人工智能领域的研究，对人类的神经元进行模拟实验”之类的说明，听起来非常高大上。但是只要掌握数据挖掘和统计学方法之间的区别和共同点，可以容易理解。

一数据挖掘的萌芽

数据挖掘的黎明期，经常接触数据的计算机技术人员和身出一线的市场调查员们发明各种各样的方法。比如啤酒和尿片的“购物车分析”，这时候有数据挖掘的指标，信赖度，改善度，支持度，消费组合被引入。信赖度：“购买某种商品的人同时购买其他的商品的概率”，改善度：“在所有顾客中啤酒购买率30%与购买尿片的顾客中啤酒购买率40%相比，改善率就是1.33（40/30）"，通过简单计算可以找出具有关联性的商品，这是购物车分析的优点。

但是与购物车相比，统计学有更加简便的工具----相关分析。用卡方检验来特带，卡方值越大改善度越大。