美文网首页
数据挖掘:概念和技术(读前4章)

数据挖掘:概念和技术(读前4章)

作者: 瘦长的丰一禾 | 来源:发表于2016-11-21 22:10 被阅读34次

    分析大量数据是必要的。与数据传感器一样,存储设备价格越来越低,因此搜集和存储数据比以前更加容易。

    第一章 引论
    为什么需要数据挖掘?我觉得有这么几点。
    主要原因:促进业务拓展,实现更多价值。
    客观原因:1、随着互联网的发展,数据产生的越来越多也越来越快。2、储备数据和得到数据越来越容易,而且存储数据也越来越便宜。3、分析以及处理数据的工具也越来越多。

    知识发现过程

    可挖掘的数据都有哪些类型?
    1、数据库数据。2、数据仓库。3、事务数据。4、其他类型的如时间序列等数据。

    数据挖掘是一个特综合的技术,具体可见截图。这也给学习提供了方向

    数据挖掘所需要的技术

    第二章 认识数据
    什么是属性?
    属性是一个数据字段,表示数据对象的一个特征。在文献中,属性、特征和变量可以互换地使用。术语“维”一般用在数据仓库中。机器学习文献更倾向于使用术语“特征”。而统计学家则更愿意使用术语“变量”,数据挖掘和数据库的专业人士一般使用术语“属性”。
    平时所说的属性有一下这些类型:
    标称属性
    标称属性的值是一些符号或事物的名称。每个值代表某种类别、编码或状态,因此标称属性又被看做是分类的。

    二元属性
    二元属性是一种标称属性,只有两个类别或状态:0或1,其中0通常表示该属性不出现,而1表示出现。二元属性又称布尔属性,如果两种状态对应于true和false的话。

    序数属性
    序数属性是一种属性,其可能的值之间具有有意义的序或秩评定,但是相继值之间的差是未知的。

    数值属性,
    数值属性是定量的,即它是可度量的量,用整数或实数值表示。数值属性可以是区间标度的或比率标度的。

    另外,还有离散属性与连续属性。

    数据的基本统计描述:
    均值、中位数、众数
    极差、四分位数、方差、标准差和四分位数极差

    另外讲了数据的基本统计描述所对应的图形表示。讲了几种数据可视化技术,以及如何度量数据的相似性和相异性。

    数值属性的相异性度量:曼哈顿距离、欧几里得距离、闵可夫斯基距离。

    第三章 数据预处理
    为什么要进行数据预处理?
    现实世界中的数据往往不能满足应用的要求。数据如果能满足应用要求,那么他是高质量的。数据质量涉及许多因素,包括准确性、完整性、一致性、时效性、可信性和可解释性。

    数据预处理主要步骤

    每章节后面的小节很棒

    第四章 数据仓库与联机分析处理

    相关文章

      网友评论

          本文标题:数据挖掘:概念和技术(读前4章)

          本文链接:https://www.haomeiwen.com/subject/kftkuttx.html