6.3 基于密度的DBSCAN算法
DBSCAN算法是一种基于密度的聚类算法,其需预定两个变量,一个是eps表示半径范围,另一个是MinPts表示半径内指定的点的数量,还包括直接密度可达(样本点在核心点的半径范围内)、密度可达(对象链中的在核心点
的半径范围内)、密度相连(数据点A与其中数据点P和数据点Q都是密度可达)这三个概念。
DBSCAN的点被分为核心点(点的指定半径范围(eps)内有超过指定数量(MinPts)的点,属于密度稠密区内部的点)、边界点(指定半径范围内且附近数量小于MinPts,但落在某核心点的领域内,属于稠密区边缘上的点)、噪声点(不在核心点的领域里,且在指定半径范围内也不存在达到MinPts数量的点,即核心点和边界点之外的点)。
K-Means与DBSCAN算法都是常见的聚类算法,但是二者的区别在于DBSCAN算法不需要提前确定簇类的数量,且可发现任意形状的聚类,但存在不足。缺陷主要集中在:一、对于高维数据不能很好的反映;二、在聚类密度不断变化的数据集中,不能很好地反映整体聚类情况。
网友评论