1.1
统计学习方法分类
按模型分类:
概率模型:条件概率分布表达的模型。x为条件,y的概率分布。决策树、朴素贝叶斯
非概率模型:函数形式表达。感知机、支持向量机、神经网络
线性模型:模型函数是线性的
非线性模型:反之
参数化模型:模型的参数维度是固定的,可以由有限维的参数刻画。适用简单问题
非参数化模型:参数维度不固定。复杂问题
按算法分类:
在线学习:每次接受一个样本,然后预测模型,不断重复。实时预测,及时对数据处理
批量学习:一次接受所有数据
按技巧分类
贝叶斯学习:基于贝叶斯定理
核方法:基因核函数。支持向量机
1.2
监督学习:
数据都已标注过。学习输入到输出的映射的统计规律
输入空间:输入的所有可能取值的集合
实例:每一个具体的输入,通常由特征向量表示
特征空间:所有特征向量存在的空间
输入空间和特征空间大多数时候相同
输出空间:输出的所有可能取值的集合
输入变量和输出变量:
都是连续变量:回归问题
都是变量序列:标注问题
输出为有限个离散变量:分类问题
当n=2,x是二维列向量。j代表元素x的第j个特征。
在监督学习中,训练集的每一个样本,都是以输入输出成对出现的。每一对输入输出(x1,y1)称为一个样本。
监督学习的基本假设:X和Y具有联合概率分布P(X,Y)
监督学习的目的:学习一个输入到输出的映射,这一映射以模型表示
模型的形式:条件概率分布P(Y|X)或决策函数Y=f(X)的形式
条件概率分布:概率模型。已知x的情况下,y的条件概率分布
决策函数:非概率模型
P和f上有一个^代表通过学习得到的。
假设空间(Hypothesis Space):所有这些可能模型的集合。用F(花体)表示
输入一个实例xN+1,得到条件概率分布模型和决策函数模型。在条件概率分布这里取了max,也就是使条件概率分布最大的y的值,因为当x=N+1时,不同的y对应不同的概率,想选可能性最大的,所以取max。
无监督学习:无标注。
模型:聚类或降维。学习潜在结构。表示数据的类别、转换、概率。
输入空间:X
隐式结构空间:Z(花体)
模型(函数或条件概率分布形式):函数z=g(x),条件概率分布P(z|x)或条件概率分布 P(x|z)。代表给定x的情况下z的概率分布,和给定z的情况下x的概率分布
假设空间(HypothesisSpace):所有这些可能模型的集合。
目的:选出在给定评价标准下的最优模型。
样本容量为N的训练集:
U={x1,x2,·,xN}。 只包含输入
强化学习
强调互动。只能系统与环境之间的,通过互动学习最优行为策略
智能系统决定下一个状态和奖励是通过长期累积奖励最大化来实现的。
强化学习可以基于策略也可以基于价值(最优的策略或价值),得到最优模型
(半监督学习):少量标注
(主动学习):主动选择有用实例进行标注
1.3
统计学习方法三要素:模型、策略、算法
模型(监督学习)
所以监督学习的这三要素比无监督学习要清晰
监督学习的假设空间:
若定义为决策函数的集合:F={f|Y=f(x)}
F=所有可能的f的集合
假设空间(F)由参数向量(Θ)决定,每一个决策函数由一个参数向量决定
参数向量决定的函数族构成假设空间:F={f|Y=fΘ(x),Θ∈Rn}
所有可能的参数向量组成参数空间:Θ={ΘlΘ∈Rn}
例:线性回归
实例:x=(x(1),x(2),…,x(n))T。x是n维列向量
决策函数(表达成线性回归形式):f(x)=w(1)x(1)+w(2)x(2) +…+w(n)x(n) + b
这个决策函数是由w1-wn和b决定的
向量形式:f(x)=w·x+b,其中,w=(w(1),w(2),…, w(n))。w是行向量
此时参数空间是所有可能的w和b组成的一个空间
若定义为条件概率的集合:F={P|P(Y|X)}。此时F是所有可能的条件概率分布组成的集合。X和Y表示输入空间的变量和输出空间的变量
对于每一个条件概率分布是由一个参数向量Θ决定。
F由一个参数向量决定的条件概率分布族构成:
F={P|PΘ(Y|X),Θ∈Rn}
例:Logistic 回归
实例:x=(x(1),x(2),… ,x(n))T
给定x的情况下y=1的概率和给定x的情况下y=0的概率
此时假设空间是所有可能的条件概率分布,而决定每一个条件概率分布的参数向量是由w、b构成的,所以所有可能的w、b构成了参数空间。
策略(监督学习)
所有模型构成了假设空间,那么如何在假设空间里选一个最优模型呢,需要用到策略来选择最优模型,要度量模型好坏
Y代表真实的输出,f(X)代表预测值。L反映真实与预测之间差异。
Rexp(f)是关于模型f的风险值,R是风险,exp是期望,平均意义就是求期望,风险函数就是对损失函数求期望。从积分的形式看出,风险函数就是模型关于联合分布P(x,y)的平均意义的损失。所以损失最小的f就是最优模型
但是联合分布P未知,风险函数不能直接计算,就选择了经验值/估计值替代风险函数,对于N个样本,都可以表达损失函数L,平均值就是经验风险,emp就是经验的意思
0-1损失函数解决分类问题
平方、绝对损失函数解决回归问题,度量真实和预测之间的距离,一个用平方距离,一个用绝对距离
对数损失函数针对概率模型
如果N趋于无穷,经验风险趋于风险函数,但现实中不是这么理想,所以要对N矫正,用到监督学习的两个策略:经验、结构风险最小化。
当N足够大,经验风险是风险函数的估计值,选使经验风险最小的模型即可。
若N小,使经验风险最小化会导致过拟合,所以在经验风险的基础上加入一个惩罚项=结构风险,这个惩罚性针对模型的复杂度,也就是J(f),模型越复杂,J(f)越大。选使结构风险最小的模型。
算法(监督学习)
是用来求解最优模型的,若存在显式解就简单,通常不存在显式解,需要数值计算方法,比如梯度下降法
无监督学习的三要素
模型:函数z=gΘ(x),条件概率分布PΘ(z|x)或条件概率分布 PΘ(x|z)
策略:优化目标函数
算法:通常是迭代算法
网友评论