美文网首页
数据挖掘第四讲

数据挖掘第四讲

作者: 阿莫米德 | 来源:发表于2018-06-25 00:16 被阅读0次

数据挖掘第四讲

数据预处理的作用?

  1. 在主要的处理以前对数据进行的一些处理
  2. 现实世界的数据通常无法直接进行数据挖掘,或挖掘结果差强人意,为了提高数据挖掘的质量需要对现实数据进行处理

常见的数据预处理方法都有哪些,分别如何处理?

  1. 数据清理

    • 现实世界的数据一般是脏的、不完整的和不一致的。数据清理例程试图填充遗漏的值,识别局外者、消除噪音,并纠正数据中的不一致。
  2. 数据集成

  3. 数据变换

  4. 数据归约

  5. 数据清理:

  • 遗漏值
    • 忽略元组
    • 人工填写遗漏值
    • 使用一个全局常量填充遗漏值
    • 使用属性的平均值填充遗漏值
    • 使用与给定元组属同一类的所有样本的平均值
    • 使用最可能的值填充遗漏值
  • 噪音数据
    • 噪音是测量变量的随机错误或偏差
    • 去除噪音需要数据平滑技术
    • 分箱
      • 存储的值被分布到一些“桶”或箱中。
      • 通过考察“邻居”(即,周围的值)来平滑箱中存储数据的值
      • 由于分箱方法导致值相邻,因此它进行局部平滑
    • 聚类:将类似的值组织成群或“聚类”,落在聚类集合之外的值被视为噪声
    • 计算机和人工检查结合
      • 算机根据可能的错误模式进行预搜索
      • 人工对错误模式进行检验
    • 回归
      • 可以通过让数据适合一个函数(如回归函数)来平滑数据
      • 线性回归:找出适合两个变量的直线,使得一个变量能够预测另一个
      • 多线性回归是线性回归的扩展,它涉及多于两个变量,数据要适合一个多维面
    • 不一致数据
      • 格式不一致(实际值相同)
      • 编码/命名不同(同一个对象)
      • 数据冗余(分布式)
  1. 数据集成与变换
    • 数据集成:将多个数据源中的数据结合,存放在一致的数据存储中
    • 数据变换
      • 平滑
      • 聚集
      • 数据泛化(属性该被泛化删除还是保留,大量不同值,)
      • 规范化(最小,最大规范化)(z-score规范化)
      • 属性构造
    • 数据相关性(皮尔森相关性)

TF-IDF算法是什么,有什么实际含义?

  • TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
  • TFIDF实际上是:TF * IDF,TF词频(Term Frequency),IDF逆向文件频率(Inverse Document Frequency)。TF表示词条在文档d中出现的频率。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。

相关文章

  • 数据挖掘第四讲

    数据挖掘第四讲 数据预处理的作用? 在主要的处理以前对数据进行的一些处理 现实世界的数据通常无法直接进行数据挖掘,...

  • 数据挖掘的基础

    总结自《Python 数据分析与数据挖掘》第1章 从数据中“淘金”,从大量数据(包括文本)中挖掘出隐含的、未知的、...

  • 阿里巴巴大数据实践(数据技术篇)

    第1章 总述第2章 日志采集第3章 数据同步第4章 离线数据开发第5章 实时技术第6章 数据服务第7章 数据挖掘 ...

  • 时空数据挖掘

    数据挖掘已经成为当代显学,只要是个公司可能都需要数据挖掘,由此也衍生除了金融数据挖掘、生物数据挖掘、时空数据挖掘、...

  • 网易微专业地产数据分析师 百度云盘分享

    第1章:大数据下的地产行业应用实践 第2章:城市进入:数据发现城市潜力 第3章:区域选择:数据挖掘板块价值 第4章...

  • 学习笔记--(移动数据挖掘引言)

    移动数据挖掘的定义 移动数据挖掘研究的是基于移动数据的数据挖掘算法。这些数据算法需要更多地利用移动数据特性,挖掘与...

  • 大数据、数据分析和数据挖掘的区别

    大数据、数据分析、数据挖掘的区别是,大数据是互联网的海量数据挖掘,而数据挖掘更多是针对内部企业行业小众化的数据挖掘...

  • 大连地区酒店数据分析

    本项目来自实验楼《楼+ 数据分析与挖掘实战》第6期学员 Miss_candy。《楼+数据分析与挖掘实战》是实验楼以...

  • Python学习笔记-3群18组-杜杜狼-2017.8.1

    What a heck! 终于开始学习数据挖掘实战课程了!!! Lesson 2 数据挖掘概况 数据挖掘(data...

  • 为什么说企业需要做文本挖掘呢?

    首先何为文本挖掘:文本挖掘是从文本中进行数据挖掘(Data Mining)。从这个意义上讲,文本数据挖掘是数据挖掘...

网友评论

      本文标题:数据挖掘第四讲

      本文链接:https://www.haomeiwen.com/subject/mgheyftx.html