数据挖掘：概念和技术（读前4章）

作者: 瘦长的丰一禾 | 来源:发表于2016-11-21 22:10 被阅读34次

数据挖掘：概念和技术（读前4章）
2018-10-29
AI时代，数据挖掘过时了吗？—企业数据挖掘成功之道（理论篇）
《数据挖掘：概念与技术（第三版）中文版.pdf》
数据仓库与数据挖掘技术—数据挖掘概念
《数据挖掘概念与技术》书评
干货 | 数据挖掘技术在风控领域的典型应用
数据挖掘概念与技术笔记
数据挖掘和机器学习在资本市场数据监测中的运用
大数据分享常用的数据挖掘技术,新人学起来就可以用

分析大量数据是必要的。与数据传感器一样，存储设备价格越来越低，因此搜集和存储数据比以前更加容易。

第一章引论
为什么需要数据挖掘？我觉得有这么几点。
主要原因：促进业务拓展，实现更多价值。
客观原因：1、随着互联网的发展，数据产生的越来越多也越来越快。2、储备数据和得到数据越来越容易，而且存储数据也越来越便宜。3、分析以及处理数据的工具也越来越多。

知识发现过程

可挖掘的数据都有哪些类型？
1、数据库数据。2、数据仓库。3、事务数据。4、其他类型的如时间序列等数据。

数据挖掘是一个特综合的技术，具体可见截图。这也给学习提供了方向

数据挖掘所需要的技术

第二章认识数据
什么是属性？
属性是一个数据字段，表示数据对象的一个特征。在文献中，属性、特征和变量可以互换地使用。术语“维”一般用在数据仓库中。机器学习文献更倾向于使用术语“特征”。而统计学家则更愿意使用术语“变量”，数据挖掘和数据库的专业人士一般使用术语“属性”。
平时所说的属性有一下这些类型：
标称属性
标称属性的值是一些符号或事物的名称。每个值代表某种类别、编码或状态，因此标称属性又被看做是分类的。

二元属性
二元属性是一种标称属性，只有两个类别或状态：0或1，其中0通常表示该属性不出现，而1表示出现。二元属性又称布尔属性，如果两种状态对应于true和false的话。

序数属性
序数属性是一种属性，其可能的值之间具有有意义的序或秩评定，但是相继值之间的差是未知的。

数值属性，
数值属性是定量的，即它是可度量的量，用整数或实数值表示。数值属性可以是区间标度的或比率标度的。

另外，还有离散属性与连续属性。

数据的基本统计描述：
均值、中位数、众数
极差、四分位数、方差、标准差和四分位数极差

另外讲了数据的基本统计描述所对应的图形表示。讲了几种数据可视化技术，以及如何度量数据的相似性和相异性。

数值属性的相异性度量：曼哈顿距离、欧几里得距离、闵可夫斯基距离。

第三章数据预处理
为什么要进行数据预处理？
现实世界中的数据往往不能满足应用的要求。数据如果能满足应用要求，那么他是高质量的。数据质量涉及许多因素，包括准确性、完整性、一致性、时效性、可信性和可解释性。