机器学习分类
- 按有无监督分类
1.全监督学习:回归算法,朴素贝叶斯,SVM(支持向量机)
2.无监督学习:聚类算法,降维算法
3.半监督学习 - 是否应用了神经网络
1.传统机器学习
2.应用了深度神经网络,深度学习
监督学习与无监督学习
监督学习
1.用于训练模型的数据有标注
2.需要收集或雇佣标注者
3.数据相对较少
4.相关算法多,效果好
算法包括了:分类算法(Logistic Regression、Neutral Network、Naive Bayes、KNN、Decision Tree等),回归算法(Linear Regression),集成算法(Bagging、Boosting)
无监督学习
1.训练模型的数据没有标注
2.数据很多
3.相关算法少
4.研究前沿
算法包括了:聚类算法(K-means),降维算法(SVD)
基本概念和术语
- 训练数据
- 模型参数
第0轮:0.8*像素0+0.1*像素1>0: 猫
狗
...
第1轮:0.75*像素0+0.2*像素1>0: 猫
参数: (𝛼1,𝛼2)
- 测试数据
此类数据的标注在训练时候不可见 - 测试指标
错误率,正确率 - 损失函数Loss Function
1.一个关于参数的数学函数f(𝛼1,𝛼2)
2.损失函数f可以近似地表示错误率,即f值越大,错误率近似越大
3.好处,f可以求关于每个参数的导数,即可以用到梯度下降法
4.这样使得模型不用猜和试参数,而是有规律地逐渐找到更好的参数
关于损失函数总结:根据训练数据调整参数,依据梯度下降法,找到损失函数,不断求导,沿导数方向的反方向一直走,找到一个合适的点,然后优化,防止过拟合。 - 推广能力
1.机器学习模型最重要的功能就是它的推广能力
2.在训练过程中,模型只能见到训练数据。不断优化,使得在训练数据上的指标越来越好,错误率越来越低,但是我们真正关心的是一个它没有见过的数据,错误率怎么样,即推广能力Generalization如何
3.模型在训练数据上错误率越小 不等于 推广能力越强,根本原因是:参数已经被优化成为只能在训练数据上表现良好,推广能力很差。
机器学习的基本架构
架构.png如何选择机器学习的模型model
- 根据输入数据
1.有标注:监督学习
2.无标注:无监督学习 - 根据输出数据
1.纯数字:回归模型
2.类别:分类模型 - 根据数据规模
1.数据多:可以选择参数较多的模型(例如深度学习)
2.数据少:选择参数少的较简单 模型(比如线性回归) - 根据实际效果
1.选择推广能力最好的模型
2.有时需要在效果、模型复杂性、时间空间限制之间寻找平衡
网友评论