美文网首页
a10.Andrew-ML08-无监督、PCA

a10.Andrew-ML08-无监督、PCA

作者: Xylia_Yang | 来源:发表于2018-08-25 17:24 被阅读15次

    Clustering

    01. Unsurpervised Learning Introduction


    • 无监督学习算法是训练样本没有标签的分类算法。


    02. K-means algorithm


    • 聚类分析是在数据中发现数据对象之间的关系,将数据进行分组,组内的相似性越大,组间的差别越大,则聚类效果越好。

    • 过程:
      选择K个点作为初始质心
      repeat
      将每个点指派到最近的质心,形成K个簇
      重新计算每个簇的质心
      until 簇不发生变化或达到最大迭代次数

    03. Otimization Objective


    • 一些定义:

    样本Xi现在被分配的聚类中心的序号


    第k个聚类中心

    样本Xi被分配的聚类中心点

    • 优化函数:每个样本到他的聚类中心点聚类平均值最小


    04. 如何选择K(聚类种类)


    • 多少情况人为判断,还有一个“肘部法则”,选择肘关节处的聚类数目。


    Dimensionality

    01. Data Compression


    • 将数据从高维降到低维。


    02. Visualization


    • 可以将多维数据降低到2-3维进行可视化


    Principal Component Analysis (主成分分析法)

    01. PCA


    • PCA:主成分分析方法是一种常见的数据压缩算法。在该过程中,数据从原来的坐标轴转换到新的坐标系,以方差最大的方向作为坐标轴的方向,因为最大方差给出了数据最主要的数据特征。
      主要是找到一个低维的子空间,使得投影误差的平方和达到最小。

    02. PCA算法


    • 过程:
      去除平均值
      计算协方差矩阵
      计算协方差矩阵的特征值和特征向量
      将特征值排序
      保留前N个最大的特征值对应的特征向量
      将数据转换到上面得到的N个特征向量构建的新空间中(实现了特征压缩)

    • 上述降维过程,首先根据数据矩阵的协方差的特征值和特征向量,得到最大的N个特征值对应的特征向量组成的矩阵,可以称之为压缩矩阵;得到了压缩矩阵之后,将去均值的数据矩阵乘以压缩矩阵,就实现了将原始数据特征转化为新的空间特征,进而使数据特征得到了压缩处理。

    当然,我们也可以根据压缩矩阵和特征均值,反构得到原始数据矩阵

    Applying PCA

    01. 原始数据的重构


    • 将被压缩的数据还原到原来的维度

    02. 选择主要成分的数量


    • 使得平均投影误差和平均数据误差的比值小于一个概率。


    • 算法:
      使k从1到不断增加直到满足要求。


    • 优化算法:(没懂)


    03. PCA的使用建议

    • 压缩数据以减小内存和提高算法效率
    • 可视化数据,k=2 or k=3
    • 对于处理过度拟合并不好,过度拟合直接用正规化就行

    相关文章

      网友评论

          本文标题:a10.Andrew-ML08-无监督、PCA

          本文链接:https://www.haomeiwen.com/subject/mczbiftx.html