1.1 Plants Data Set数据集理解

Plants Data Set数据集包含了每一种植物(种类和科属)以及它们生长的地区。数据集中总共有69个地区，主要分布在美国和加拿大。一条数据(对应于文件中的一行)包含一种植物(或者某一科属)及其在上述69个地区中的分布情况。可以这样理解，该数据集中每一条数据包含两部分内容，如下图所示。

例如一条数据:abronia fragrans,az,co,ks,mt,ne,nm,nd,ok,sd,tx,ut,wa,wy。其中abronia fragrans是植物名称(abronia是科属，fragrans是名称)，从az一直到wy是该植物的分布区域，采用缩写形式表示，如az代表的是美国Arizona州。植物名称和分布地区用逗号隔开，各地区之间也用逗号隔开。

1.2 数据预处理

首先原数据集有30000多条数据集，如果直接对原数据集进行聚类操作，每聚类一次所消耗的时间比较长，本实验通过预处理部分，在对结果影响不大的情况下对数据进行了缩减。例如：

1 abelmoschus,ct,dc,fl,hi,il,ky,la,md,mi,ms,nc,sc,va,pr,vi

2 abelmoschus esculentus,ct,dc,fl,il,ky,la,md,mi,ms,nc,sc,va,pr,vi

3 abelmoschus moschatus,hi,pr

上述数据中第1行给出了所有属于abelmoschus这一科属的植物的分布地区，接下来的2、3两行分别列出了属于abelmoschus科属的两种具体植物及其分布地区。我们可以看出abelmoschus的分布情况已经包含了之后两种具体植物的分布情况，并且我们通过对数据二维的分布情况进行观察，可以用科属来代替具体植物来进行聚类分析，二维分布如下：

同时该数据集由于地名是使用英文缩写来代替，这并不利于聚类，所以本实验将每条数据处理成以下数据形式。

0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

这是一个长度69的列表，每一位分别代表一个州，如果列表中的数字为1，则代表该植物在该州有分布，反之亦然。数据预处理之后的形式为3382*69大小的矩阵。

2.1 Sales_Transactions_Dataset_Weekly数据理解

Sales_Transactions_Dataset_Weekly数据集是在52周之内，800多种商品每周的购买数量，同时本数据集也提供了标准化值。由于不同商品之间由于各自性质的不同，所以不能简单的通过件数来进行聚类，本实验我们采用了标准化值来进行聚类。通过聚类来找到商品之间是否存在内在的联系。首先本实验通过PCA降维将数据直观的显示在二维平面上，其分布情况如下图所示：