1.数据预处理方法
通过对属性进行规范化将属性值按比例缩放,对于涉及神经网络的分类算法将有助于加快学习阶段的速度。对于基于距离的方法,规范化可以帮助防止具有较大初始值域的属性与具有较小初始值域的属性(如二元属性)相比权重过大。目前常用的规范化方法有最大最小值规范化、平均数方差法、总和规范化、极大值规范化等。当使用同一聚类算法并以不同的规范化方式处理时,聚类结果往往不同,规范化方式的选择对聚类效果影响很大,必须在负荷模式提取中加以考虑。这就要求在负荷模式提取时首先了解每种聚类方法在采用不同规范化方法时的性能好坏,以便得到准确可靠的聚类结果。
2.负荷模式识别的聚类方法
负荷模式提取通常用聚类技术实现,主要方法可分为如下几类:
(1)基于划分的方法。基于划分的聚类算法的基本思想为:给定一个含有m个对象的数据集,划分方法将构建k个分组,每个分组就代表一个聚类簇。而且每个簇至少包括1个对象,每个对象必须且仅属于1个簇。对于给定的数据集,算法首先根据给定的要构建划分的数目创建一个初始的分组,然后采用种迭代重定位的方法改变初始分组,使得每一次改进以后的分组方案都较前一个好。
(2)层次聚类方法。层次方法根据层次的分解方式不同可以分为凝聚的或分裂的。凝聚的方法为自底向上分解,首先将每个对象作为单独的一个组,然后合并相似的组,直到所有的组合并成一个(或满足某个终止条件)。分裂的方法为自顶向下分解,首先将所有的对象置于一个组中,在迭代的每步中,一个组被分裂为更小的组,直到最终每个对象在单独的一个组中(或满足某个终止条件)。
(3)基于密度的方法。
基于密度的方法与大部分划分方法不同,它不是基于各种各样的距离,而是基于密度。其主要思想是:只要临近区域的密度(对象或数据点的数目)超过某个阈值,就继续聚类。该方法既可以过滤噪声数据,也可以发现任意形状的簇。
(4)基于模型的方法。基于模型的方法通过优化给定的数据和某些数学模型之间的拟合。主要包括统计学方法和神经网络方法。
(5)模糊聚类。传统聚类算法是一种硬划分,把每个待识别对象严格划分到每个类中,划分界限是分明的。然而大多数对象实际上并没有严格的属性划分,其在形态和类属方面存在着中间性。利用模糊理论来处理聚类问题的方法称为模糊聚类分析。模糊聚类分析是对传统硬划分方法的一种改进,样本属于各个类别的隶属度表达了样本属性的中间性。
网友评论