美文网首页
数据仓库与数据挖掘技术—数据归约

数据仓库与数据挖掘技术—数据归约

作者: 熊猫学猿 | 来源:发表于2022-07-26 06:08 被阅读0次

    数据归约:选择替代的、“较小的”数据表示形式来减少数据量

    1、回归和对数线形模型

    在简单线性回归中,对数据建模,使之拟合到一条直线上。

    多元线性回归是简单线性回归的扩充,允许响应变量y建模为两个或多个预测变量的线性函数

    对数线性模型近似离散的多维概率分布。给定n维元组的集合,可以把每个元组看做n维空间的点,可以使用对数线性模型基于为维组合的一个较小子集,估计离散化的属性集的多维空间中每个点的概率。这使得高纬数据空间可以由较低维空间构造

    2、直方图

    直方图使用分箱来近似数据分布。属性A的直方图将A的数据分布划分为不相交的子集或桶。桶表示给定属性的一个连续空间

    确定桶和属性值的划分规则:

    1、等宽。在等宽直方图中,每个桶的宽度区间是一致的

    2、等频。在等频直方图中,创建桶,使得每个桶的频率粗略地维常数(即每个桶大致包含相同个数的近邻数据样本)

    3、V最优。给定桶的个数,对所有可能的直方图,则V最优直方图是具有最小方差的直方图。直方图的方差是每个桶代表的原来值的加权和,其中权等于桶中值的个数

    4、MaxDiff。在MaxDiff直方图中,考虑每对相邻值之间的差,桶的边界具有B-1个最大差的对,其中B是用户指定的桶数

    3、聚类:将数据元组视为对象,它将对象划分为群或簇,使一个簇中的对象相互“相似”,而其他簇中的对象“相异”

    4、抽样:用数据的小的多的随机样本(子集)表示大型数据集

    最常用的抽样方法有4种

    1、s个样本无放回

    2、s个样本有放回

    3、聚类抽样:如果D中的元组分组放入M个互不相交的簇,则可以得到s个簇的简单随机抽样,其中s〈M

    4、分层抽样:如果D划分成互不相交的部分,称做层.则通过对每一层的SRS(简单随机抽样)就可以得到D的分层样本

    通过将属性值域划分为区间,数据离散化技术可以用来减少给定连续属性值的个数。区间的标记可以替代实际的数据值。用少数区间标记替换连续属性的数值,从而减少和简化原来的数据。

    对于给定的数值属性,概念分层定义了该属性的一个离散化。通过收集较高层的概念(如青年、中年、老年)并用它们替换较低层的概念(人年龄的数值)

    1、分箱

    2、直方图分析

    3、基于熵的离散化

    4、基于x²分析的区间合并

    5、聚类分析

    6、根据直观划分离散化

    相关文章

      网友评论

          本文标题:数据仓库与数据挖掘技术—数据归约

          本文链接:https://www.haomeiwen.com/subject/cjiairtx.html