美文网首页统计学习笔记
统计学习方法4.2-5.1 笔记

统计学习方法4.2-5.1 笔记

作者: 千容安 | 来源:发表于2022-07-24 20:21 被阅读0次

4.2 朴素贝叶斯:因何而朴素

是一种分类方法,是贝叶斯定理 + 特征条件独立假设(使贝叶斯思维变为朴素贝叶斯)

输入空间是n维的特征空间,说明每个实例x都有n个特征
输出是具有k个类的集合,因为朴素贝叶斯是一种分类方法,所以输出空间是离散的,y是具体的哪个类
学习结果:联合概率分布P(X,Y)。所以从根本上说是一种生成方法。

生成方法:联合概率分布P(X,Y)→条件概率分布(P(X|Y),已知X情况求Y)→预测
判别方法:直接得决策函数f(x)或者条件概率分布P(X|Y)

那么如何得到联合概率分布?要先得到先验概率分布和条件概率分布。
先验概率分布:对于每一个类,它的概率分布都是计算出来的。
条件概率分布:对于每一个类,如果再给x,是可以求出它的概率。
x有n个特征所以可以展开写

联合概率分布就是先验概率分布乘以条件概率分布

先验概率分布:
巧克力来自A盒:7/16,巧克力来自B盒:9/16

条件概率分布:
巧克力来自A盒,是黑色的概率:3/7。(A盒中黑色的概率)

联合概率分布:
先验概率分布 × 条件概率分布

如果巧克力来自A盒并且是黑色的:7/16×3/7

贝叶斯方法就是从这个联合概率分布再去求条件概率分布,这个条件概率分布不一样了,刚才是P(X|Y),现在是P(Y|X)

因为指数计算量大,所以在朴素贝叶斯中加入独立性假设,使计算具有可行性。

4.3 朴素贝叶斯:后验概率最大化准则

新的实例属于哪类?计算后验概率=先验概率+条件概率分布
后验概率也是条件概率,已知x=X,求Y=ci的概率

归属于哪一类就是要计算概率,哪类概率最大就是哪类
使后验概率最大的类就是要归属的类

对于这各分类问题,可以写出损失函数,是0-1损失函数

使损失最小化其实就是使期望风险最小化
由于本章的贝叶斯方法使用的条件概率形式,因此这里的期望是条件期望。Y有k个类,所以有k个取值。将条件期望展开,也就是是ci类的时候它的损失是多少,损失是决策函数f(x),Y是ci,因为我们想求是哪个类的,所以条件概率是以X为条件,归属ci的概率。
因为有K个类所以求和后的总值是条件期望总数

取期望风险最小的那个类

要让这个损失函数有值,Y≠f(x),也就是=1,其他时候=0,所以将函数简化:

对这个式求min就是对后面的式求max:

对应的就是后验概率最大化

4.4 朴素贝叶斯法:极大似然法之原理

想找到x对应的y,通过最大化后验概率,由于分母相同,求分子最大就可以。分子的组成:第一部分:先验概率,实例点属于ci的时候的概率。第二部分:一系列条件概率相乘:当实例点属于ci类,输入X的第j个特征取的是x(j)的概率。这里是对应总体而言的

先验概率,参考巧克力在A盒,A盒巧克力数/总数

条件概率这里,第j个特征,取值有Sj种,可以取aji,aj2,...,ajsj,当它取第l个值的时候,也就是第j个特征取ajl的时候,条件概率是多少?分母是“条件”,如巧克力中“颜色”这个特征有5种取值,a11,a12...a15,如果算P(a12/A),就是A盒里有白色的巧克力2块,就是2/7。
所以条件概率分母就是所属类别中所包含的实例点个数
要计算的条件概率的个数:K·S1·S2...Sn

极大似然法

极大似然估计的本质是概率最大化

极大似然估计:
估计就是估计参数,似然对应似然函数,通过让似然函数最大化实现参数估计的目的
似然函数和联合密度函数具有相同形式,但又不完全是。
联合密度函数中,X是随机变量,β是参数,假设β已知,x相互独立(未知),其联合密度函数可以写成每个样本的密度函数乘积的形式

似然函数不一样,既然是估计,β未知,x1到xN已知,L是关于参数β的函数。“定值”相当于训练数据集

如何求β?找到参数空间θ,看β取什么,似然函数取最大值,这个β就是我们要估计的值,这个估计值记作β^

4.4 朴素贝叶斯法:极大似然法之实现

β所取值的可能就是参数空间
没有黑球对应0,1个黑球对应1/3

拿出再放会,取3次,所以i是1-3。

变量是取出球的颜色,取出黑记1,概率是β,白记0,概率是1-β。将分段写改成联合写如下

将x代入的似然函数

将参数的4个值代入函数,比较得知当β=2/3时L最大

得知β=2/3

将每个参数都代入函数试了一遍得到最优参数的结果,这是一个“遍历”的方法,若参数是无限的怎么办?如何直接从似然函数计算参数估计值。
对每个参数求导,令偏导数=0,得到似然方程组,解得极大值点。(参数可微并且是凸函数)

为什么有对数似然函数?因为有时概率密度函数是指数形式,求对数可以简化函数

例子:

μ度量平均水平,方差δ∈σ^2(标准差) ,方差度量波动情况,距离均值的波动情况。取值在无穷,无法遍历。

写出x的似然函数,就是N个概率密度函数相乘,但是这时似然函数是关于函数μ和δ的。

由于这是一个指数函数形式,所以求完对数应该是将它简化的。

接下来对它求偏导,令偏导=0,估计参数

μ的估计值是样本的平均值,而δ的样本方差,这是求一个解析解

若求不出解析解,可以迭代:猜一个参数β,代入函数,修正参数,是数值解,近似的解决方法

例子:

计算得p=7/10,就是极大似然法的结果,就是数个数的结果。

4.4 朴素贝叶斯法:算法

通过先验概率和条件概率学习到模型,模型用的方法就是极大似然法。先验概率用的极大似然估计是每个类别有的实例点/训练集中所有实例点个数。条件概率用的极大似然估计是,已知实例属于ck类,某个特征属于某个值的概率(已知巧克力在A,是黑色的概率,同样可以通过数个数的方法)

输入x可以计算先验概率和条件概率,再计算后验概率(x属于每个类别的概率),将x属于这k个类别的概率进行比较,找出最大的(也就是后验概率最大化),得到x所属的类别y

例子:

①计算先验概率、条件概率
先验概率:y=-1和y=1的概率。数个数,y=1有9个,9/15
条件概率:当y=1时,x(1)=1的情况是2个,再比是y=1的实例点个数

②计算后验概率的分子
需要实例点x(2,S)
计算属于y=1的概率

计算属于y=-1的概率

1/45<1/45,后验概率最大化,所以x属于y=-1

4.6 朴素贝叶斯 -- 贝叶斯估计

注:λ>0λ=0时为极大似然估计, λ=1时为拉普拉斯平滑(Laplacian Smoothing)。
先验概率若为0/N,会影响后验概率计算,所以分子加上λ,避免得到绝对化的结论。分母加Kλ,是所得概率求和式为1

拉普拉斯平滑思想,防止过拟合

拉普拉斯平滑估计:

先验概率:

条件概率:

5.1 决策树:归纳法

观察大量样本来总结决策树。决策树不是二叉树而是多叉树

有向边:→
内部结点:圆圈, 特征和属性
叶结点:方块, 类别

lf-Then规则 互斥、完备
每一个叶结点都对应规则,每个叶结点对应规则也不一样。一个叶/类可能是多条路径

关注:
如何选最优特征? 指标是熵
如何正确分类? 能将大部分数据分类。就不会过拟合。

相关文章

  • 统计学习方法4.2-5.1 笔记

    4.2 朴素贝叶斯:因何而朴素 是一种分类方法,是贝叶斯定理 + 特征条件独立假设(使贝叶斯思维变为朴素贝叶斯) ...

  • 统计学习方法笔记(第四章个人笔记)

    统计学习方法笔记(第四章个人笔记) 标签: 统计学习方法 朴素贝叶斯法 描述:朴素贝叶斯法是基于贝叶斯定理与特征条...

  • 从程序员的角度说统计学习方法概论

    应该说这是在看完《统计学习方法》这本书后有的想法,也算是读书笔记。《统计学习方法》是李航写的,重点偏向于基于统计的...

  • 2018-08-12

    统计学习方法笔记(一) 1.1实现统计学习方法的步骤 1.得到一个有限的训练数据集。 2.确定包含所有可能的模型的...

  • 统计机器学习基本概念

    -------- 李航《统计学习方法》 笔记 1. 统计学习三要素模型 策略 算法 1.1 模型 监督学习过程中,...

  • logistic与softmax分类

    待处理统计学习方法:罗杰斯特回归及Tensorflow入门 参考阅读深度学习笔记(一):logistic分类Log...

  • 统计学习笔记(一)

    最近开始看李航老师的统计学习方法,在这里做点笔记 统计学习基本概念 定义:是关于计算机基于数据构建概率统计模型并运...

  • 【笔记】《统计学习方法》

      本来因为在CSDN里上传图片很麻烦,所以转到简书了。结果简书居然还不支持Latex和目录TOC、、、公式比较多...

  • 统计学习方法笔记

  • 统计学习方法笔记(第一章个人笔记)

    统计学习方法笔记(第一章个人笔记) 标签:机器学习深度学习 P15 泛化能力 1.6.1 泛化误差定义如果学到的模...

网友评论

    本文标题:统计学习方法4.2-5.1 笔记

    本文链接:https://www.haomeiwen.com/subject/ociiirtx.html