额... 虽说是技术文章,却不知该怎么下笔。
综合今天学到的基础知识,机器学习是基于样本数据的归纳实现最大化降低数据损失 的工具(纯个人理解..)
接下来介绍几个基础概念,方便大家更好的理解
一:机器学习术语
1. 特征:事物所具备可描述的具体特征
2. 标签:这里指机器学习根据事物的特征要预测的东西
3. 样本:它分为有标签样本(包含事物的特征和标签)和无标签样本(只包含事物的特征,不包含标签)
4. 模型:定义了特征、标签之间的关系。
模型生命周期分两个阶段:训练阶段(给模型提供标签样本让模型学习)和推断阶段(将完成训练阶段的模型应用于无标签样本,得到无标签样本对应的预测标签值y
模型类型分为两类:回归模型(预测连续的标签值)和分类模型(预测离散的标签值)
二:线性回归
...
x1、x2、x3 代表了事物的三个特征,w1 、w2、w3 分别代表了三个特征相对于标签的权重,y1 是标签值,b 代表偏差(也称w0)
三:经验风险最小化
完成训练阶段的模型对无标签样本进行推断产生的标签值,有可能和实际的标签值产生误差,叫做损失。训练模型不断检查多个标签样本最大限度减少损失的过程,叫做经验风险最小化
四:降低损失方法
由于采集到的数据(有标签样本)数量很庞大,如果采用全批量迭代方法将数据都添加到训练阶段中去,会花费巨额的计算时间,得不偿失
可以采用随机梯度下降发 随机抽取各个批量的一个样本去计算,找到最接近、误差最小的真实标签值,不过,现在采用最多的方法是小批量随机下降法(10-1000个随机样本)。
网友评论