6.3 基于密度的DBSCAN算法

DBSCAN算法是一种基于密度的聚类算法，其需预定两个变量，一个是eps表示半径范围，另一个是MinPts表示半径内指定的点的数量，还包括直接密度可达（样本点在核心点的半径范围内）、密度可达（对象链中的 $P_{i+1}$ 在核心点 $P_{i}$ 的半径范围内）、密度相连（数据点A与其中数据点P和数据点Q都是密度可达）这三个概念。

DBSCAN的点被分为核心点（点的指定半径范围（eps）内有超过指定数量（MinPts）的点，属于密度稠密区内部的点）、边界点（指定半径范围内且附近数量小于MinPts，但落在某核心点的领域内，属于稠密区边缘上的点）、噪声点（不在核心点的领域里，且在指定半径范围内也不存在达到MinPts数量的点，即核心点和边界点之外的点）。

K-Means与DBSCAN算法都是常见的聚类算法，但是二者的区别在于DBSCAN算法不需要提前确定簇类的数量，且可发现任意形状的聚类，但存在不足。缺陷主要集中在：一、对于高维数据不能很好的反映；二、在聚类密度不断变化的数据集中，不能很好地反映整体聚类情况。