美文网首页
数据仓库与数据挖掘技术—过程模型分类及主要技术

数据仓库与数据挖掘技术—过程模型分类及主要技术

作者: 熊猫学猿 | 来源:发表于2022-07-15 12:31 被阅读0次

CRISP- DM过程模型是数据挖掘界公认的规范标准。

以企业所面临的问题为出发点,以能解决企业的问题并找出新的商机为终极目标。以数据为主轴,不断地寻找并有效发掘出隐藏模式,以及其内涵的整体流程。从大量数据中不断地寻找出宝藏。

生命周期包括六个阶段:商业理解、数据、理解、数据准备、建立模型、模型评估和模型发布。各个阶段的顺序不是僵硬不变的,通常需要在不同阶段之间向前或向后移动,这要取决于每个阶段的结果和接下来将要实施的阶段,或者一个阶段的具体任务,最外面的循环表示数据挖掘本身的循环特征。数据挖掘并非是一旦得到一个解决方案就结束了,在流程及解决方案中得到的教训,可能引发新的,常常是更为集中的商业问题,后面的挖掘过程将从前几次的经验中获益。

SEMMA过程模型:数据采样、数据特征探索、分析和预处理、问题明确化、数据整理和技术选择、模型的研发、知识的发现、模型和知识的综合解释和评价。其优点在于贯穿建模的每个细节,清楚的表面过程是迭代的。缺点在于没有涉及商业问题或数据挖掘问题,更加关注过程而不是结果,同时没有能够涉及到模型的发布。

5A模型:评估(Assess)、访问(Access),分析(Analyze),行动(Act)自动化,(Automate)。其优点同样是显示了分析过程的重复迭代性,缺点在于没有说明数据挖掘过程中的商业问题,没有关注数据准备过程,更关注于数据分析而不是预测未来可能发生什么情况。

常用的数据挖掘技术可分为:统计分析类、知识发现类和其他类型的数据挖掘技术。

统计分析类:使用的数据挖掘模型有线性分析和非线性分析、回归分析、逻辑回归分析,单变量分析、多变量分析、时间序列分析,最近邻算法和聚类分析等技术。检查那些异常显示的数据,利用各种统计模型和数学模型解释这些数据,解释隐藏在这些数据背后的市场规律和商业机会

知识发现类:从大量数据中筛选信息,寻找市场可能出现的运营模式,发掘人们所不知道的事情。主要包括人工神经网络、决策树、遗传算法、粗糙集、规则发现和关联顺序。

其他类型的数据挖掘技术:文本数据挖掘、web数据挖掘、分类系统、可视化系统、空间数据挖掘和分布式数据挖掘等。

文本数据挖掘主要为了满足对非结构化信息的挖掘需要。

web数据挖掘对大批量网络信息的挖掘。

相关文章

网友评论

      本文标题:数据仓库与数据挖掘技术—过程模型分类及主要技术

      本文链接:https://www.haomeiwen.com/subject/ykuobrtx.html