美文网首页
数据挖掘导论

数据挖掘导论

作者: EvanForEver | 来源:发表于2018-04-15 18:20 被阅读29次

什么是数据挖掘

数据挖掘(Data mining),它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。

通常,数据挖掘任务分为两大类

  • 预测任务—— 产生预测性模型
    根据一部分属性的值,预测特定属性的值,用来做预测的属性称作自变量/说明变量;被预测的属性称作因变量/目标变量
    两种常用方法:分类、回归
  • 描述任务 —— 产生解释性模型
    导出概括数据中潜在联系的模式,包括相关、趋势、聚类、轨迹和异常等模式,描述性数据挖掘任务具有探查性,通常需要验证和理解结果
    三种常用方法:聚类、关联分析、异常检测
  1. 分类
    定义:给定一组含有类标号(离散型)的记录(训练集),寻找推导类标号的一个模型,使预测结果尽量准确
     每个记录包含一组属性,其中一个属性是类标属性,类标属性的取值称作类标号
     寻找的模型可以看作是类标号的一个函数,该函数的自变量是非类标属性,因变量是类标属性
     模型不仅要拟合训练集,还要能正确预测未知记录的类标
     使用测试集评估模型,以针对测试集的准确率作为模型的准确率
    常见模型:决策树、规则集、贝叶斯分类器、人工神经网络、支持向量机等
  2. 回归
    定义:给定一组含有类标号(连续型)的记录(训练集),寻找推导类标号的一个模型,使预测结果尽量准确。分类任务和回归任务可以互相转化
     分类 → 回归:比如采用logistic回归处理离散型类标
     回归 ← 分类:比如采用离散化过程,将连续型类标号转成离散型类标号
    常见模型:回归方程、结构方程模型等
  3. 聚类
    定义:给定一组数据点和一个数据点间相似程度的度量准则,寻找一个簇的集合,使同簇的对象相似,不同簇的对象不相似
     每个数据点包含一组属性,没有类标属性
     簇也叫作分组,是一组数据点
     相似程度的度量准则可以是欧氏距离等
     通过使簇内距离最小化,簇间距离最大化实现聚类
  4. 关联分析
    定义:给定一组由项构成的事务记录,发现项之间的依赖规则,每个规则表示一些项的出现预示着其他项的出现
     项之间的依赖规则称作关联规则
  5. 异常分析
    定义:找出与其他大部分对象特征显著不同的对象
     与分类的主要区别:没有类标属性,离群点极少
     与聚类的主要区别:离群点不能形成簇
     与关联分析的主要区别:找对象不是找模式

关联分析 vs 聚类 vs 分类
输入
关联分析:事务数据库,不同记录可以具有不同的字段
分类:带类标的二维数据库(即表单)
聚类:不带类标的二维数据库(即表单),每个单元格是数值
输出
关联分析:对应输入数据局部的模式(即关联规则)
分类:对应输入数据全体的预测模型(即决策树、规则集、贝叶斯分类器、人工神经网络或支持向量机)
聚类:对应输入数据全体的描述模型(即分组结果/簇集)

相关文章

  • 数据挖掘导论 - 1

    layout: posttitle: 数据挖掘基本概念 --《数据挖掘导论》categories: Coursed...

  • 《数据挖掘导论》学习

    数据挖掘导论读书笔记

  • 数据挖掘导论

    一、为什么要挖掘数据 1.数据丰富但信息贫乏 2.电脑便宜且强大 3.大量数据超出人的理解范围 4.数据收集与储存...

  • 数据挖掘导论

    什么是数据挖掘 数据挖掘(Data mining),它是数据库知识发现(英语:Knowledge-Discover...

  • 数据挖掘导论

    一、数据挖掘的定义 指通过从大量数据中通过算法搜索隐藏与其中信息的过程。其中机器学习是支撑数据挖掘的主要手段。 二...

  • 第二章 数据(1) --《数据挖掘导论》

    layout: posttitle: 第二章 数据(1) --《数据挖掘导论》categories: Course...

  • 数据挖掘学习笔记(一)

    导论 数据挖掘 数据库中知识发现 Knowledge Discovery in Database (KKD) 是将...

  • 浅谈数据挖掘(概论)

    浅谈数据挖掘(概论) 前言:学习资料的来源均出自,《图解机器学习》-杉山将,中国工信出版集团。《数据挖掘导论》-戴...

  • 【学习】数据挖掘导论

    链接: https://pan.baidu.com/s/1pIbKslArK8zlQ3f4UOyJZA 提取码: ...

  • Python数据分析笔记(1)

    第一门课:数据思维导论:如何从数据中挖掘价值? 大数据的时代,如何从海量数据中挖掘到价值信息?从个人主体上,需要自...

网友评论

      本文标题:数据挖掘导论

      本文链接:https://www.haomeiwen.com/subject/tctjkftx.html