week14

作者: 猪蹄炖粥 | 来源:发表于2018-08-24 01:24 被阅读3次

    ch22 ch24
    机器学习的方法数不胜数,但是所有方法都试图建立一个模型来对现有实例进行归纳
    所有方法可分为:
    模型的表示
    用于评估模型优度的目标函数
    一种优化方法,可以通过学习找出一个模型,使目标函数值最大化或最小化

    机器学习算法:

    • 监督式学习
      1、从一组成对的特征向量和值开始
      2、目标:从这些特征向量和值中推导出某种规则,预测出未知的特征向量及所定义的值
      3-1:回归模型:为每一个特征向量关联一个实数
      3-2:分类模型:为每一个特征向量关联一组数量有限的标签
    • 非监督式学习
      没有给定一个标注的特征向量集合,通过算法自动发现特征向量集合中的隐含模式
    名词解释
    • 特征工程:区分数据中的信号和噪声,如果相对于样本量来说数据的维度(即特征的数量)比较大的时候,特征工程就有较大的失败风险
    • 距离度量:
      目的:看看响尾蛇与巨蟒更相似,还是与箭毒蛙更相似。
      方法:
      1、比较等长向量的闵可夫斯基距离
    def minkowskiDist(v1, v2, p):
     """假设v1和v2是两个等长的数值型数组
    返回v1和v2之间阶为p的闵可夫斯基距离"""
     dist = 0.0
        for i in range(len(v1)):
            dist += abs(v1[i] - v2[i])**p
        return dist**(1/p)
    

    kmean聚类的理解

    k最邻近算法:
    对新样本进行标注时,就是根据它们与训练集样本的相似度而进行的
    KNN分类器的缺点:当存在严重的分类不平衡的时候(两种类别数量差别大),分类结果非常糟糕
    改进:对k最邻近进行加权

    相关文章

      网友评论

          本文标题:week14

          本文链接:https://www.haomeiwen.com/subject/zkvviftx.html