数据挖掘第四讲

数据挖掘第四讲

作者: 阿莫米德 | 来源:发表于2018-06-25 00:16 被阅读0次

数据挖掘第四讲
数据挖掘的基础
阿里巴巴大数据实践（数据技术篇）
时空数据挖掘
网易微专业地产数据分析师百度云盘分享
学习笔记--(移动数据挖掘引言)
大数据、数据分析和数据挖掘的区别
大连地区酒店数据分析
Python学习笔记-3群18组-杜杜狼-2017.8.1
为什么说企业需要做文本挖掘呢？

数据挖掘第四讲

数据预处理的作用?

在主要的处理以前对数据进行的一些处理
现实世界的数据通常无法直接进行数据挖掘，或挖掘结果差强人意，为了提高数据挖掘的质量需要对现实数据进行处理

常见的数据预处理方法都有哪些,分别如何处理?

数据清理
- 现实世界的数据一般是脏的、不完整的和不一致的。数据清理例程试图填充遗漏的值,识别局外者、消除噪音,并纠正数据中的不一致。
数据集成
数据变换
数据归约
数据清理：

遗漏值
- 忽略元组
- 人工填写遗漏值
- 使用一个全局常量填充遗漏值
- 使用属性的平均值填充遗漏值
- 使用与给定元组属同一类的所有样本的平均值
- 使用最可能的值填充遗漏值
噪音数据
- 噪音是测量变量的随机错误或偏差
- 去除噪音需要数据平滑技术
- 分箱
  - 存储的值被分布到一些“桶”或箱中。
  - 通过考察“邻居”（即，周围的值）来平滑箱中存储数据的值
  - 由于分箱方法导致值相邻，因此它进行局部平滑
- 聚类:将类似的值组织成群或“聚类”，落在聚类集合之外的值被视为噪声
- 计算机和人工检查结合
  - 算机根据可能的错误模式进行预搜索
  - 人工对错误模式进行检验
- 回归
  - 可以通过让数据适合一个函数（如回归函数）来平滑数据
  - 线性回归：找出适合两个变量的直线，使得一个变量能够预测另一个
  - 多线性回归是线性回归的扩展，它涉及多于两个变量，数据要适合一个多维面
- 不一致数据
  - 格式不一致(实际值相同)
  - 编码/命名不同(同一个对象)
  - 数据冗余(分布式）

数据集成与变换
- 数据集成：将多个数据源中的数据结合，存放在一致的数据存储中
- 数据变换
  - 平滑
  - 聚集
  - 数据泛化（属性该被泛化删除还是保留，大量不同值，）
  - 规范化（最小，最大规范化）（z-score规范化）
  - 属性构造
- 数据相关性(皮尔森相关性)

TF-IDF算法是什么,有什么实际含义?

TFIDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。
TFIDF实际上是：TF * IDF，TF词频(Term Frequency)，IDF逆向文件频率(Inverse Document Frequency)。TF表示词条在文档d中出现的频率。IDF的主要思想是：如果包含词条t的文档越少，也就是n越小，IDF越大，则说明词条t具有很好的类别区分能力。

相关文章

数据挖掘第四讲
数据挖掘第四讲数据预处理的作用? 在主要的处理以前对数据进行的一些处理现实世界的数据通常无法直接进行数据挖掘，...
数据挖掘的基础
总结自《Python 数据分析与数据挖掘》第1章从数据中“淘金”，从大量数据（包括文本）中挖掘出隐含的、未知的、...
阿里巴巴大数据实践（数据技术篇）
第1章总述第2章日志采集第3章数据同步第4章离线数据开发第5章实时技术第6章数据服务第7章数据挖掘 ...
时空数据挖掘
数据挖掘已经成为当代显学，只要是个公司可能都需要数据挖掘，由此也衍生除了金融数据挖掘、生物数据挖掘、时空数据挖掘、...
网易微专业地产数据分析师百度云盘分享
第1章：大数据下的地产行业应用实践第2章：城市进入：数据发现城市潜力第3章：区域选择：数据挖掘板块价值第4章...
学习笔记--(移动数据挖掘引言)
移动数据挖掘的定义移动数据挖掘研究的是基于移动数据的数据挖掘算法。这些数据算法需要更多地利用移动数据特性，挖掘与...
大数据、数据分析和数据挖掘的区别
大数据、数据分析、数据挖掘的区别是，大数据是互联网的海量数据挖掘，而数据挖掘更多是针对内部企业行业小众化的数据挖掘...
大连地区酒店数据分析
本项目来自实验楼《楼+ 数据分析与挖掘实战》第6期学员 Miss_candy。《楼+数据分析与挖掘实战》是实验楼以...
Python学习笔记-3群18组-杜杜狼-2017.8.1
What a heck! 终于开始学习数据挖掘实战课程了！！！ Lesson 2 数据挖掘概况数据挖掘（data...
为什么说企业需要做文本挖掘呢？
首先何为文本挖掘：文本挖掘是从文本中进行数据挖掘(Data Mining)。从这个意义上讲，文本数据挖掘是数据挖掘...

网友评论

本文标题：数据挖掘第四讲

本文链接：https://www.haomeiwen.com/subject/mgheyftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|数据挖掘第四讲|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！