机器学习的原理
计算机能做的就是接受输入的数值,通过计算再输出另一堆数字,它对事物的理解就是数字,事物之间的关联在它看来就是运算。
机器学习就是对于数据及其特征,利用算法计算最终获得模型的过程。
机器学习又可分为有监督学习和无监督学习。
有监督学习是指样本有标签的学习过程,因为标签无法依靠机器学习程序本身,所以由此得名。
无监督学习,指样本没有标签,这样的学习过程。
机器学习三要素:数据、模型和算法
数据先是源数据,比如样本图片,其次是将这些数据依据业务需求转换成向量,比如说具备某种特征的是否某种物体,可以用有标注的向量数据表示。确定用哪些特征表示数据,用什么方式表示这些特征,这个过程叫特征工程。
模型相当于是函数,它是算法训练之后得到的。
有监督学习的目标是,让训练数据计算后获得的值,和原本对应的值之间的差别尽量小。整体数据的差别,可以用代价函数来描述。学习的目标就是最小化代价函数。
为了获得最小化代价函数,就需要用到优化算法。具体由梯度下降法、共轭梯度法、牛顿法和拟牛顿法、模拟退火法等等。
算法最具技术含量,但决定有监督模型质量的,往往是高质量的标注数据。
获取模型的过程
主要经历以下步骤,数据准备、训练和测试。如何改进?一是有大量的高质量训练数据,二是调整模型的超参数(比如),在模型不好使的时候可以换换,不要迷信高级的。
如何衡量模型的质量
分类模型的指标:对每一分类而言,都有精准度(Precision,即所有预测结果中,预测正确的比率)、查全度(有叫召回率,Recall,即所有测试数据中,预测正确的比率),以及综合这两个指标的F1Score=2*(Precision * Recall)/(Precision + Recall)。
这些指标,同时指向一个模型和一个数据集。
避免模型的欠拟合(模型太简单、特征不够)和过拟合(模型太复杂、特征过多)。
梯度下降法是最常用的优化算法,可以形象地理解成沿着曲线跨步,每一步有补偿,目标就是跨到最低点。
梯度下降可能会陷入到局部最小值,可以尝试不同的起始点,甚至加大步长。
网友评论