美文网首页
Day 672:机器学习笔记(2)

Day 672:机器学习笔记(2)

作者: kafkaliu | 来源:发表于2018-11-29 22:58 被阅读10次

    机器学习的原理

    计算机能做的就是接受输入的数值,通过计算再输出另一堆数字,它对事物的理解就是数字,事物之间的关联在它看来就是运算。

    机器学习就是对于数据及其特征,利用算法计算最终获得模型的过程。

    机器学习又可分为有监督学习和无监督学习。

    有监督学习是指样本有标签的学习过程,因为标签无法依靠机器学习程序本身,所以由此得名。

    无监督学习,指样本没有标签,这样的学习过程。

    机器学习三要素:数据、模型和算法

    数据先是源数据,比如样本图片,其次是将这些数据依据业务需求转换成向量,比如说具备某种特征的是否某种物体,可以用有标注的向量数据表示。确定用哪些特征表示数据,用什么方式表示这些特征,这个过程叫特征工程。

    模型相当于是函数,它是算法训练之后得到的。

    有监督学习的目标是,让训练数据计算后获得的值,和原本对应的值之间的差别尽量小。整体数据的差别,可以用代价函数来描述。学习的目标就是最小化代价函数。

    为了获得最小化代价函数,就需要用到优化算法。具体由梯度下降法、共轭梯度法、牛顿法和拟牛顿法、模拟退火法等等。

    算法最具技术含量,但决定有监督模型质量的,往往是高质量的标注数据。

    获取模型的过程

    主要经历以下步骤,数据准备、训练和测试。如何改进?一是有大量的高质量训练数据,二是调整模型的超参数(比如),在模型不好使的时候可以换换,不要迷信高级的。

    如何衡量模型的质量

    分类模型的指标:对每一分类而言,都有精准度(Precision,即所有预测结果中,预测正确的比率)、查全度(有叫召回率,Recall,即所有测试数据中,预测正确的比率),以及综合这两个指标的F1Score=2*(Precision * Recall)/(Precision + Recall)。

    这些指标,同时指向一个模型和一个数据集。

    避免模型的欠拟合(模型太简单、特征不够)和过拟合(模型太复杂、特征过多)。

    梯度下降法是最常用的优化算法,可以形象地理解成沿着曲线跨步,每一步有补偿,目标就是跨到最低点。

    梯度下降可能会陷入到局部最小值,可以尝试不同的起始点,甚至加大步长。

    相关文章

      网友评论

          本文标题:Day 672:机器学习笔记(2)

          本文链接:https://www.haomeiwen.com/subject/qbjqcqtx.html