三者之间的关系总结成一句话就是 :运用某种算法对数据进行运算的到模型。
![](https://img.haomeiwen.com/i1506017/a9446859c7182864.jpeg)
一 数据
原始数据
向量空间模型VSM(Vector Space Model)
就是将格式(文字、图片、音频、视频)的数据转化为向量。
(怎么转换的? 特征工程,后面会讲)
如前一章中的6匹小马:
![](https://img.haomeiwen.com/i1506017/0fe1c435920a32fe.jpeg)
我们要用独角和翅膀这两个特征来给她们做聚类,那么我们就可以定义一个二维的向量 A=[a_1,a_2]。a_1 表示是否有独角,有则 a_1 = 1, 否则 a_1 = 0。而 a_2 表示是否有翅膀。
那么按照这个定义,我们的6匹小马最终就会被转化为下面6个向量
X_1 = [1,0]
X_2 = [0,0]
X_3 = [0,0]
X_4 = [0,1]
X_5 = [0,1]
X_6 = [1,0]
这六个向量也叫这份数据的特征向量(Feature Vector)
二 模型
模型就是机器学习的结果,学习的过程称为训练,训练好的模型可以理解为一个函数y=f(x)(这个函数描述了某种规律)。
我们把数据(对应其中的 x)输入进去,得到输出结果(对应其中的 y)。
这个输出结果可能是一个数值(回归),也可能是一个标签(分类),它会告诉我们一些事情。
类似打标签的任务就是分类,求值的任务就是回归。
什么是回归
回归就是从数据中得到事物的真实值。
比如一张桌子的真实高度,由于测量是存在误差的,在有限的次数下我们永远无法测得桌子的真实高度,只能测出很多近似值,从这些近似值中得到真实值,叫做回归。回归事物本质的意思。
(其实只能无限接近真实值,细想起来桌子也没有固定的真实高度,不同温度下膨胀程度不同,高度也就不同。再进一步说:其实我们接触的所有事物的属性数值都是近似值,因为都是不固定的)
什么是训练
根据已经被指定的 f(x) 的具体形式——模型类型(如y=f(x)=ax2+bx+c),结合训练数据,计算出其中各个参数的具体取值的过程。
就是已知函数类型和一些输入输出数据求参数。
算法
损失函数(Loss Function)
有监督学习的目标就是:让训练数据的所有 x 经过 f(x) 计算后,获得的 y’ 与它们原本对应的 y 的差别尽量小。
用一个函数来描述 y’ 与 y 之间的差别,这个函数叫做损失函数(Loss Function)L(y, y’)= L(y, f(x))。
代价函数(Cost Function)
Loss 函数针对一个训练数据,对于所有的训练数据,我们用代价函数(Cost Function)来描述整体的损失
网友评论