数据挖掘的入门概念

作者: 程sir | 来源:发表于2016-05-14 14:22 被阅读2033次

数据挖掘的入门概念
数据挖掘与可视化学习网址大全
数据挖掘导论 - 1
DataWhale二手车价格预测Task2-数据探索性分析EDA
汇总！我整理了大数据入门帖子200篇并用python分析了一下
读了十本书丨Hadoop大数据分析及数据挖掘读书笔记，一文总结
数据挖掘引论篇学习笔记
资源整理
数据挖掘入门——以二手车价格预测为例
2018-10-29

1 数据挖掘

数据挖掘（Data Mining，简称DM），是指从大量的数据中，挖掘出未知的且有价值的信息和知识的过程

2 机器学习与数据挖掘

与数据挖掘类似的有一个术语叫做”机器学习“，这两个术语在本质上的区别不大，如果在书店分别购买两本讲数据挖掘和机器学习的书籍，书中大部分内容都是互相重复的。具体来说，小的区别如下：

机器学习这个词应该更侧重于技术方面和各种算法，一般提到机器学习就会想到语音识别，图像视频识别，机器翻译，无人驾驶等等各种其他的模式识别，甚至于谷歌大脑等AI，这些东西的一个共同点就是极其复杂的算法，所以说机器学习的核心就是各种精妙的算法。

数据挖掘则更偏向于“数据”而非算法，而且包括了很多数据的前期处理，用爬虫爬取数据，然后做数据的清洗，数据的整合，数据有效性检测，数据可视化（画图）等等，最后才是用一些统计的或者机器学习的算法来抽取某些有用的“知识”。前期数据处理的工作比较多。

所以，数据挖掘的范畴要更广泛一些。

3 数据挖掘所覆盖的学科

数据挖掘是一门交叉学科，覆盖了统计学、计算机程序设计、数学与算法、数据库、机器学习、市场营销、数据可视化等领域的理论和实践成果

4 数据挖掘的误区

算法至上论：数据挖据是某些对大量数据操作的算法，这些算法能够自动地发现新的知识。

技术至上论：数据挖据需要非常高深的分析技能，需要精通高深的数据挖掘算法，需要熟练程序开发设计

这两种认知都是有问题的，实际上，数据挖掘是人们处理商业问题的某些方法，通过适量的数据挖掘来获得有价值的结果，最好的数据挖掘工程师往往是那些熟悉和理解业务的人。

5 数据挖掘能解决什么问题

商业上的问题多种多样，例如：

“如何能降低用户流失率？”
“某个用户是否会响应本次营销活动？“
"如何细分现有目标市场？"
“如何制定交叉销售策略以提升销售额？”
“如何预测未来销量？”

从数据挖掘的角度看，都可以转换为五类问题：分类，聚类，回归，关联和推荐。

5.1 分类问题

简单来说，就是根据已经分好类的一推数据，分析每一类的潜在特征建立分类模型。对于新数据，可以输出新出具属于每一类的概率。

比如主流邮箱都具备的垃圾邮件识别功能：一开始，正常邮件和垃圾邮件都是混合在一起的，如果我们手工去点击哪些是垃圾邮件，逐渐的，垃圾邮件就会自动被识别放到垃圾文件夹。如果我们对于混在正常邮件中的垃圾持续进行判断，系统的识别率就会越来越高。我们人工点击判断，相当于预先分类（两类：垃圾邮件和非垃圾邮件），系统就会自己学习两类邮件的特征建立模式，对于新邮件，会根据模式判断属于每个类别的可能性。

分类算法示意

5.2 聚类问题

和分类算法是不同概念，但是工作中业务人员经常误用。聚类的的目的也是把数据分类，但类别并不是预先定义的，算法根据“物以类聚”的原则，判断各条数据之间的相似性，相似的就归为一类。

比如我有十万消费者的信息数据，比如包括性别，年龄，收入，消费等，通过聚类的方法事可以把这些数据分成不同的群，理论上每群用户内都是相似性较高的，就可以覆盖分群用户制定不同的策略

聚类算法示意

5.3 回归问题

回归问题和分类问题有点类似，但是回归问题中的因变量是一个数值，而分类问题，最终输出的因变量是一个类别

简单理解，就是定义一个因变量，在定义若干自变量，找到一个数学公式，描述自变量和因变量之间的关系

比如，我们要研究房价，然后收集房子距离市中心的距离，面积，收集足够多的房子的数据，就可以建立一个房价和距离，面积的公式，这样给出一个新的距离和面积数据，就可以预测这个房子的价格

回归问题示意

5.4 关联分析

也就是很有名气的啤酒与尿布的故事，据说这是一个真实的案例：沃尔玛在分析销售记录时，发现啤酒和尿布经常一起被购买，于是他们调整了货架，把两者放在一起，结果真的提升了啤酒的销量。后来还分析背后的原因，说是因为爸爸在给宝宝买尿布的时候，会顺便给自己买点啤酒……这已经成为了数据挖掘领域的一个经典桥段。

因此，关联分析就是基于数据识别产品之间潜在的关联，识别有可能频繁发生的模式

5.5 推荐系统

利用电子商务网站向客户提供商品信息和建议，帮助用户决定应该购买什么产品，模拟销售人员帮助客户完成购买过程也。也就是平时我们在浏览电商网站、视频网站、新闻App中"猜你喜欢"、“其他人也购买了XXX”等类似的功能。

6 数据挖掘的工作流程

数据挖掘的通用流程叫做CRISP-DM（Cross Industry Standard Process-Data Mining）数据挖掘方法论

CRISP-DM

6.1 商业理解

商业理解阶段主要完成对商业问题的界定，以及对企业内外部资源进行评估与组织，最终确定将企业的商业目标转化为数据挖掘目标，并制定项目的方案

6.2 数据理解

了解企业目前数据现状，提出数据需求，并尽可能多的收集数据。通过初步的数据探索，快速了解数据的质量

6.3 数据准备

在建立数据挖掘模型之前对数据做最后的准备工作，主要是把收集到的各部分数据关联起来，形成一张最终数据宽表。这个阶段其实是耗时最长的阶段，一般会占据整个数据挖掘项目的70%左右的时间，包括数据导入、数据抽取、数据清洗、数据合并、新变量计算等工作。

6.4 模型构建

模型构建是数据挖掘工作的核心阶段。主要包括准备模型的训练集和验证集，选择并使用适当的建模技术和算法，模型建立，模型效果对比等工作

6.5 模型评估

模型评估主要从两个方面进行评价：

1）技术层面：
- 设计对照组进行比较。
- 根据常用的模型评估指标进行评价，如命中率、覆盖率、提升度等

2）业务经验：业务专家凭借业务经验对数据挖掘结果进行评估

6.6 模型部署

将数据挖掘成果程序化，将模型写成存储过程固化到IT平台上，并持续观察模型衰退变化，在发生模型衰退时，引入新的变量进行模型优化。

数据挖掘的入门概念
1 数据挖掘数据挖掘（Data Mining，简称DM），是指从大量的数据中，挖掘出未知的且有价值的信息和知识的...
数据挖掘与可视化学习网址大全
数据挖掘学习博客： kdnuggets 数据挖掘入门数据可视化学习博客： processing官网文本挖掘数...
数据挖掘导论 - 1
layout: posttitle: 数据挖掘基本概念 --《数据挖掘导论》categories: Coursed...
DataWhale二手车价格预测Task2-数据探索性分析EDA
二手车数据探索性分析EDA Tip:此部分为零基础入门数据挖掘的 Task1 赛题理解部分，为大家入门数据挖掘比...
汇总！我整理了大数据入门帖子200篇并用python分析了一下
000 我通过数据挖掘入门,自学人工智能,python入门,nlp是什么,统计学入门,大数据入门,爬虫是什么意思...
读了十本书丨Hadoop大数据分析及数据挖掘读书笔记，一文总结
数据挖掘基础数据挖掘的概念：从数据中“淘金”，从大量数据（文本）中挖掘出隐含的、未知的、对决策有潜在的关系、模...
数据挖掘引论篇学习笔记
先从概念上了解数据挖掘为什么进行数据挖掘我们生活在大量数据日积月累的年代。分析这些数据是一种重要需求。数据挖掘...
资源整理
机器学习该怎么入门？机器学习入门资源不完全汇总数据挖掘学习图谱 Metacademy
数据挖掘入门——以二手车价格预测为例
数据挖掘入门——以二手车价格预测为例作者：张杰数据挖掘的步骤 Data Analysis Feature En...
2018-10-29
目前正在研读《数据挖掘：概念和技术》对于数据挖掘的概念只是浅层的好像知道的明白了的感觉阅读到175页，正在学习...

数据挖掘的入门概念

1 数据挖掘

2 机器学习与数据挖掘

3 数据挖掘所覆盖的学科

4 数据挖掘的误区