美文网首页
数据挖掘第四讲

数据挖掘第四讲

作者: 阿莫米德 | 来源:发表于2018-06-25 00:16 被阅读0次

    数据挖掘第四讲

    数据预处理的作用?

    1. 在主要的处理以前对数据进行的一些处理
    2. 现实世界的数据通常无法直接进行数据挖掘,或挖掘结果差强人意,为了提高数据挖掘的质量需要对现实数据进行处理

    常见的数据预处理方法都有哪些,分别如何处理?

    1. 数据清理

      • 现实世界的数据一般是脏的、不完整的和不一致的。数据清理例程试图填充遗漏的值,识别局外者、消除噪音,并纠正数据中的不一致。
    2. 数据集成

    3. 数据变换

    4. 数据归约

    5. 数据清理:

    • 遗漏值
      • 忽略元组
      • 人工填写遗漏值
      • 使用一个全局常量填充遗漏值
      • 使用属性的平均值填充遗漏值
      • 使用与给定元组属同一类的所有样本的平均值
      • 使用最可能的值填充遗漏值
    • 噪音数据
      • 噪音是测量变量的随机错误或偏差
      • 去除噪音需要数据平滑技术
      • 分箱
        • 存储的值被分布到一些“桶”或箱中。
        • 通过考察“邻居”(即,周围的值)来平滑箱中存储数据的值
        • 由于分箱方法导致值相邻,因此它进行局部平滑
      • 聚类:将类似的值组织成群或“聚类”,落在聚类集合之外的值被视为噪声
      • 计算机和人工检查结合
        • 算机根据可能的错误模式进行预搜索
        • 人工对错误模式进行检验
      • 回归
        • 可以通过让数据适合一个函数(如回归函数)来平滑数据
        • 线性回归:找出适合两个变量的直线,使得一个变量能够预测另一个
        • 多线性回归是线性回归的扩展,它涉及多于两个变量,数据要适合一个多维面
      • 不一致数据
        • 格式不一致(实际值相同)
        • 编码/命名不同(同一个对象)
        • 数据冗余(分布式)
    1. 数据集成与变换
      • 数据集成:将多个数据源中的数据结合,存放在一致的数据存储中
      • 数据变换
        • 平滑
        • 聚集
        • 数据泛化(属性该被泛化删除还是保留,大量不同值,)
        • 规范化(最小,最大规范化)(z-score规范化)
        • 属性构造
      • 数据相关性(皮尔森相关性)

    TF-IDF算法是什么,有什么实际含义?

    • TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
    • TFIDF实际上是:TF * IDF,TF词频(Term Frequency),IDF逆向文件频率(Inverse Document Frequency)。TF表示词条在文档d中出现的频率。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。

    相关文章

      网友评论

          本文标题:数据挖掘第四讲

          本文链接:https://www.haomeiwen.com/subject/mgheyftx.html