吴恩达机器学习-Chapter 14 无监督学习

作者: 数据追随者 | 来源:发表于2019-04-26 23:19 被阅读1次

    目的:无监督学习 聚类算法

    1. Lesson 108 无监督学习

        1. 目的:介绍无监督学习,无标签y,只有特征变量X
        2. 应用场景:市场划分、社交网络人群聚类、服务器集群划分

    2. Lesson 109 K-Means 算法

        1. 目的:介绍K-Means定义及原理
        2. K-Means是迭代算法,它做2件事 1)簇分类 2)移动聚类中心
        3. 步骤:
          1. 随机找2个聚类中心,分别叫:μ_a、μ_b(分为2类)
          2. 遍历样本数据中每个点分别与μ_a、μ_b的距离,距离近的便分配到哪个簇中(即:离μ_a近的样本便算到a簇中,否则算到b簇中)
          3. 移动聚类中心,将μ_a移动到a簇中所有样本的均值处,μ_b移动到b簇中所有样本的均值处(相当于重新得到了2个聚类中心)
          4. 重复上面2,3的过程,直到μ_a、μ_b两个聚类中心的值不再变化

          5. 算法: K-Means算法.png
        6. 几种距离算法
          1. 欧氏距离(Euclidean Distance)
             1. 二维平面上点a(x1,y1)与b(x2,y2)间的欧氏距离: 二维平面欧式距离.png
            2. n维空间点a(x11,x12,…,x1n)与b(x21,x22,…,x2n)间的欧氏距离(两个n维向量) n维空间欧式距离.png
          2. 曼哈顿距离(Manhattan Distance)
            1. 顾名思义,在曼哈顿街区要从一个十字路口开车到另一个十字路口,驾驶距离显然不是两点间的直线距离。这个实际驾驶距离就是“曼哈顿距离”。曼哈顿距离也称为“城市街区距离”(City Block distance)。
            2. 二维平面两点a(x1,y1)与b(x2,y2)间的曼哈顿距离: 二维平面曼哈顿距离.png
            3. n维空间点a(x11,x12,…,x1n)与b(x21,x22,…,x2n)的曼哈顿距离: n维空间曼哈顿距离.png
          3. 切比雪夫距离 (Chebyshev Distance)
            1. 国际象棋中,国王可以直行、横行、斜行,所以国王走一步可以移动到相邻8个方格中的任意一个。国王从格子(x1,y1)走到格子(x2,y2)最少需要多少步?这个距离就叫切比雪夫距离。
            2. 二维平面两点a(x1,y1)与b(x2,y2)间的切比雪夫距离 二维平面切比雪夫距离.png
            3. n维空间点a(x11,x12,…,x1n)与b(x21,x22,…,x2n)的切比雪夫距离: n维空间切比雪夫距离.png
          5. 标准化欧氏距离 (Standardized Euclidean Distance)
            1. 定义: 标准化欧氏距离是针对欧氏距离的缺点而作的一种改进。标准欧氏距离的思路:既然数据各维分量的分布不一样,那先将各个分量都“标准化”到均值、方差相等。假设样本集X的均值(mean)为m,标准差(standard deviation)为s,X的“标准化变量”表示为: 标准化变量.png
            2. 标准化欧氏距离公式: 标准化欧氏距离.png

    5. Lesson 110 优化目标

          1. 目的:K-Means算法最小代价函数(优化目标),该函数2个目的,1)调试算法效果;2)找到最好的簇,避免局部最优解

          2. 代价函数:所有样本点到其所在的簇中心的距离平方和最小 image.png

    6. Lesson 111 随机初始化

          1. 目的:初始化聚类中心的方法
      2. 在样本数据中随机选择K个点即可(K要小于样本数量m)
          3. 如果担心出现局部最优解,可以进行多次随机初始化,并计算出每次随机初始化的代价函数,取最小值的即可
          4. 如果分类数量K在2-10之间,经过多次随机初始化,效果会比较好,如果K值较大(成百上千),此方法效果不佳

    7. Lesson 112 选取聚类数量

        1. 目的:选取聚类数量K的值(无自动化方法)

        2. 肘部法则(效果不一定好) 肘部法则.png
        3. 根据业务场景和需求来定K值

    相关文章

      网友评论

        本文标题:吴恩达机器学习-Chapter 14 无监督学习

        本文链接:https://www.haomeiwen.com/subject/fpvcnqtx.html