美文网首页
机器学习基本知识

机器学习基本知识

作者: Zake_Wang | 来源:发表于2018-03-02 14:48 被阅读0次
    机器学习分类
    • 按有无监督分类
      1.全监督学习:回归算法,朴素贝叶斯,SVM(支持向量机)
      2.无监督学习:聚类算法,降维算法
      3.半监督学习
    • 是否应用了神经网络
      1.传统机器学习
      2.应用了深度神经网络,深度学习
    监督学习与无监督学习
    监督学习

    1.用于训练模型的数据有标注
    2.需要收集或雇佣标注者
    3.数据相对较少
    4.相关算法多,效果好
    算法包括了:分类算法(Logistic Regression、Neutral Network、Naive Bayes、KNN、Decision Tree等),回归算法(Linear Regression),集成算法(Bagging、Boosting)

    无监督学习

    1.训练模型的数据没有标注
    2.数据很多
    3.相关算法少
    4.研究前沿
    算法包括了:聚类算法(K-means),降维算法(SVD)

    基本概念和术语
    • 训练数据
    • 模型参数
    第0轮:0.8*像素0+0.1*像素1>0: 猫
     狗
    ...
    第1轮:0.75*像素0+0.2*像素1>0: 猫 
    参数: (𝛼1,𝛼2)
    
    • 测试数据
      此类数据的标注在训练时候不可见
    • 测试指标
      错误率,正确率
    • 损失函数Loss Function
      1.一个关于参数的数学函数f(𝛼1,𝛼2)
      2.损失函数f可以近似地表示错误率,即f值越大,错误率近似越大
      3.好处,f可以求关于每个参数的导数,即可以用到梯度下降法
      4.这样使得模型不用猜和试参数,而是有规律地逐渐找到更好的参数
      关于损失函数总结:根据训练数据调整参数,依据梯度下降法,找到损失函数,不断求导,沿导数方向的反方向一直走,找到一个合适的点,然后优化,防止过拟合。
    • 推广能力
      1.机器学习模型最重要的功能就是它的推广能力
      2.在训练过程中,模型只能见到训练数据。不断优化,使得在训练数据上的指标越来越好,错误率越来越低,但是我们真正关心的是一个它没有见过的数据,错误率怎么样,即推广能力Generalization如何
      3.模型在训练数据上错误率越小 不等于 推广能力越强,根本原因是:参数已经被优化成为只能在训练数据上表现良好,推广能力很差。
    机器学习的基本架构
    架构.png
    如何选择机器学习的模型model
    • 根据输入数据
      1.有标注:监督学习
      2.无标注:无监督学习
    • 根据输出数据
      1.纯数字:回归模型
      2.类别:分类模型
    • 根据数据规模
      1.数据多:可以选择参数较多的模型(例如深度学习)
      2.数据少:选择参数少的较简单 模型(比如线性回归)
    • 根据实际效果
      1.选择推广能力最好的模型
      2.有时需要在效果、模型复杂性、时间空间限制之间寻找平衡

    相关文章

      网友评论

          本文标题:机器学习基本知识

          本文链接:https://www.haomeiwen.com/subject/agdaxftx.html