有监督学习与无监督学习

作者: 魏清宇 | 来源:发表于2018-12-27 16:19 被阅读0次

有/无/半监督学习强化学习区别
【第一周】无监督学习
无监督学习
python机器学习二(无监督学习)
无监督学习
机器学习概述
阅读笔记：半监督学习方法
深度学习的一些基本概念(一)
机器学习的一些概念
Supervised vs. UnSupervised Lear

机器学习：

有监督学习与无监督学习：

有监督学习即人工给定一组数据，每个数据的属性值也给出，对于数据集中的每个样本，我们想要算法预测并给出正确答案：回归问题，分类问题。

分类问题：输出是离散值（如0,1对应是或否；也可以是多个离散值），用以判断的属性值可以有多个，如判断肿瘤是良性还是恶性，可以依据的属性值可以是肿瘤大小、患者年龄等。学习算法那就是在数据集中画一条线，将数据根据属性分类。如果你的数据属性有无数个，计算机在处理时很可能会内存溢出，无法处理大量的属性。此时，就可以用SVM。

无监督学习中，数据是没有标签的或者是有一样的标签的。我们不知道数据的含义和作用，只知道是有一个数据集的。数据集可以判断是有两个数据集，自己进行分类，这就是聚类学习。

单变量线性回归模型：

单变量回归算法学习过程

提供一个训练集，学习算法的任务是输出一个函数，通常用一个小写字母h表示，h代表假设函数（hypothesis）。h是一个map X到Y的函数。下一步的问题是如何假设这个假设函数。

损失函数

给定训练样本，根据假设函数，我们能算出来y的估计值，用H（x(i)）表示，而我们期望的是预测值与真实值y(i)之间的误差越小越好，即用误差平方和表示。因得到上图右上的第一个函数，这个函数就是我们的目标函数，m为样本规模。为了统一和简洁，用J（ $\theta 0，\theta 1$ ）表示为误差平方和，称之为损失函数（cost function）或平方误差函数。最小化这个损失函数，就得到我们的目标函数。损失函数有很多种形式，平方误差函数只是其中的一种，但是这种损失函数应用普遍且效果较好。

假设函数与损失函数

简化假设函数，假设 $\theta 0$ =0，此时只剩一个参数 $\theta 1$ ，假设函数是关于x的，若样本为（1，1）（2,2）（3,3），设定 $\theta 1=1$ ，则根据假设函数求得的h(x(i))=y(i)，此时损失函数为0，在上图右边可以画出损失函数图，即 $\theta 1=1$ 时，J( $\theta 1$ )=0。下面在假设参数 $\theta 1=0.5$ 时：