从零开始机器学习-5 深入了解机器学习

作者: 养薛定谔的猫 | 来源:发表于2018-03-07 17:07 被阅读154次

从零开始机器学习-5 深入了解机器学习
机器学习中的基础知识（一）
深入了解机器学习
Python 手写机器学习最简单的 kNN 算法
「零基础」python机器学习入门（一）| 什么是机器学习？
TensorFlow从零开始学(一)机器学习基础
树模型(一) 分支准则
Python从零开始第六章机器学习②逻辑回归实战（2）
国外机器学习资源大全（一）
入门

本文由沈庆阳所有,转载请与作者取得联系!

前言

随着计算机计算能力和数据量的不断增长，人工智能在近些年以近乎爆炸似的速度进行增长。其中，专家系统、机器学习、推荐系统和计算机视觉等人工智能的分支也在不断扩大。
机器学习是人工智能中的一个重要工具，机器学习能够帮助我们解读一连串或是离散的数据的含义。对于机器学习，我们不需要硬编码（HardCode），而只需向程序提供足够多的样本，即可得到可以达到目的的自己想要的程序。比如我们在前几章中可以使用相同的程序，不同的样本来训练程序识别不同的物体，甚至是不同的动物，而不需要改变程序的任何代码。

本节关键词

标签(Label)、特征(Feature)、样本(Example)、模型(Model)、回归(Regression)、分类(Classification)、训练(Train)、损失(Loss)

机器学习的框架

机器学习的定义如下：
·机器学习系统通过学习如何组合输入信息来对从未见过的数据做出有用的预测。
也许通过前几节的练习，我们对机器学习的定义有了一些了解。

在离散数学的学习中，我们学过简单的线性回归(Simple Linear Regression)。比如，成都市平均房价与房屋面积的关系、一个餐馆的销售额与周围学校大学生的数量等。我们要通过房屋面积来预测房价，要通过大学生的数量来预测餐馆的销售额。那么在上述问题中，要预测的变量为y(房价与销售额)，即标签。标签可以是房屋未来的价格、图片中显示的物体是什么、音频文件的含义或任何事物。
因此，标签即要预测的事物，用y表示。

特征

在上一段介绍的情境中，我们根据房屋面积和学生数量来预测事物，这些根据的信息即为特征。进一步地解释来说，特征即输入变量，用x表示。对于一些简单的机器学习来说，特征可能仅有一个。但是对于复杂的机器学习问题来说，可能有上万个特征。用{x1,x2,x3...xn}来表示这些特征。

样本

样本分为有标签样本和无标签样本。
有标签样本包含着特征和标签，其定义形式如下：

有标签样本: {特征, 标签}: (x, y)

样本是一个矢量，我们使用有标签样本来训练机器学习程序。
无标签样本包含特征，但不包含标签，其定时形式如下：

无标签样本: {特征, ?}: (x, ?)

在通过使用有标签的样本来训练好我们的机器学习程序之后，我们可以使用机器学习程序来预测无标签样本，从而得到相应的预测的标签。

模型

模型，即特征和标签之间的关系。在数学中，我们通常使用函数或是映射来表示x和y的关系。而在机器学习领域中，这种关系则被称作模型。
模型的诞生通常分为2个阶段。首先是训练模型，即创建和学习模型。通过训练模型我们可以创建出一个模型。通过给机器学习程序给予足够的有标签样本（特征和标签的集合），模型逐渐学习其中特征和标签的关系。
当模型创建完毕之后，便是推断。将训练好的模型用于无标签样本，来预测相应的标签y'。

回归与分类

回归模型可用于预测连续值，而分类模型可用于预测离散值。这将在后面进行阐述。

线性回归

线性回归（Linear regression）是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归，大于一个自变量情况的叫做多元回归。

一个简单线性回归的例子

在上图中，我们假设其含义为平均房价和房子面积之间的关系。由前面所讲可知，平均房价是我们要预测的事物，即标签。而房子面积则是特征。
在初中数学里，我们可以画出一条直线，可以在x轴上任取一点，做x轴的垂线，来截取直线上的一点，该点的y值即我们预测的平均房价。
该直线的方程在几何学中以：y=ax+b来表示。
其中：
a为斜率，b为直线在y轴上的截距。
而在机器学习中，我们以如下形式表示：
y'=w0+w1x1
其中，y'为我们要预测的标签，即理想的输出值、w0指的是偏差、w1指的是特征1的权重、x1指的是特征即输入项。
如果具有多个特征，即非简单线性回归，则该模型的表示形式如下：
y'=x0+w1x1+w2x2+....wnxn

训练和损失

训练

在监督式机器学习中，训练指的是通过有标签样本来学习，从而得到各个特征的理想的权重和偏差值。机器学习的算法通过结合所有输入样本，找到合适的权重和偏差值从而使损失最小，即经验风险最小化。
损失即对单个样本而言，模型预测的准确程度。以简单线性回归为例，如果模型直线直接穿过所有样本点，则损失为0（基本上是不可能的）。如果模型距离样本点偏差过大，则损失越大。训练模型则是为了找到损失较小的偏差和权重。

损失

对于线性回归而言，其损失函数为平方损失，即L2损失。
均方误差指的是每个样本的平均平方损失。要计算均方差，需要求出各个样本的所有平方损失之和，然后除以样本数量，即：
均方差=(实际值-预测值)^2 / 样本数量
表述为，实际值和预测值差的平方除以样本数量。
在机器学习中，不同的模型适用不同的损失函数。损失函数的选取对于我们准确地计算损失极其关键。