Day 672：机器学习笔记（2）

作者: kafkaliu | 来源:发表于2018-11-29 22:58 被阅读10次

机器学习的原理

计算机能做的就是接受输入的数值，通过计算再输出另一堆数字，它对事物的理解就是数字，事物之间的关联在它看来就是运算。

机器学习就是对于数据及其特征，利用算法计算最终获得模型的过程。

机器学习又可分为有监督学习和无监督学习。

有监督学习是指样本有标签的学习过程，因为标签无法依靠机器学习程序本身，所以由此得名。

无监督学习，指样本没有标签，这样的学习过程。

机器学习三要素：数据、模型和算法

数据先是源数据，比如样本图片，其次是将这些数据依据业务需求转换成向量，比如说具备某种特征的是否某种物体，可以用有标注的向量数据表示。确定用哪些特征表示数据，用什么方式表示这些特征，这个过程叫特征工程。

模型相当于是函数，它是算法训练之后得到的。

有监督学习的目标是，让训练数据计算后获得的值，和原本对应的值之间的差别尽量小。整体数据的差别，可以用代价函数来描述。学习的目标就是最小化代价函数。

为了获得最小化代价函数，就需要用到优化算法。具体由梯度下降法、共轭梯度法、牛顿法和拟牛顿法、模拟退火法等等。

算法最具技术含量，但决定有监督模型质量的，往往是高质量的标注数据。

获取模型的过程

主要经历以下步骤，数据准备、训练和测试。如何改进？一是有大量的高质量训练数据，二是调整模型的超参数（比如），在模型不好使的时候可以换换，不要迷信高级的。

如何衡量模型的质量

分类模型的指标：对每一分类而言，都有精准度（Precision，即所有预测结果中，预测正确的比率）、查全度（有叫召回率，Recall，即所有测试数据中，预测正确的比率），以及综合这两个指标的F1Score=2*(Precision * Recall)/(Precision + Recall)。

这些指标，同时指向一个模型和一个数据集。

避免模型的欠拟合（模型太简单、特征不够）和过拟合（模型太复杂、特征过多）。

梯度下降法是最常用的优化算法，可以形象地理解成沿着曲线跨步，每一步有补偿，目标就是跨到最低点。

梯度下降可能会陷入到局部最小值，可以尝试不同的起始点，甚至加大步长。

网友评论

本文标题：Day 672：机器学习笔记（2）

本文链接：https://www.haomeiwen.com/subject/qbjqcqtx.html

Day 672：机器学习笔记（2）