美文网首页
贝叶斯算法

贝叶斯算法

作者: carolwhite | 来源:发表于2018-02-23 12:06 被阅读15次
    • 贝叶斯理论
    • 最大似然估计
    • 优点
    • 缺点

    贝叶斯理论

    根据一个已发生事件的概率,计算另一个事件的发生概率.

    屏幕快照 2018-02-22 下午4.54.56.png

    转换到我们的数据集上的话,可以这样表示。


    屏幕快照 2018-02-22 下午4.58.54.png

    在这里y是类变量,X是依赖特征向量(大小为n): X=(x1,x2,x3,...,xn)

    #根据X的3个特征判断是否下雨
    X = (Rainy, Hot, High, ) 
    y = No  #或者Yes
    

    朴素假设

    我们假设每一个特征之间相互独立,P(AB)=P(A)P(B)。

    那么可以一次得到下面结果。

    屏幕快照 2018-02-22 下午5.10.39.png 屏幕快照 2018-02-22 下午5.45.50.png

    此时我们因为只需要判断y的那种类别可能性最大,所以不需要算出准确的值,那么因为分母P都是固定的常数,所以可以忽略。


    屏幕快照 2018-02-22 下午5.50.09.png

    现在我们需要建立一个分类模型,我们用已知的类变量y的所有可能的值计算概率,并选择输出概率是最大的结果。


    屏幕快照 2018-02-22 下午5.51.28.png

    这里各类的先验概率P(y)比较容易得到。

    1、每个样本所属的自然状态都是已知的(有监督学习);
    2、依靠经验;
    3、用训练样本中各类出现的频率估计。

    但是类条件概率P(xi|y)很难估计,于是把估计完全未知的概率密度P(xi|y)转化为估计参数,极大似然估计就是一种参数估计方法。

    极大似然估计

    • 前提

    训练样本的分布能代表样本的真实分布。每个样本集中的样本都是所谓独立同分布的随机变量 ,且有充分的训练样本。

    • 目的

    利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。然后我们可以根据这个参数求出概率。

    • 原理

    提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计。

    屏幕快照 2018-02-23 上午11.03.59.png
    • 求解最大似然估计函数

    (1)写出似然函数;
    (2)对似然函数取对数,并整理;
    (3) 求导数;
    (4)解似然方程。

    屏幕快照 2018-02-23 上午11.05.29.png 屏幕快照 2018-02-23 上午11.05.51.png

    特点

    使用先验知识得到后验概率,由期望风险最小化得到后验概率最大化。假设条件独立,条件不独立就变成贝叶斯网络了

    场景举例:情感分析、消费者分类

    优点

    小规模数据集表现好,适合多分类
    对于在小数据集上有显著特征的相关对象,朴素贝叶斯方法可对其进行快速分类

    缺点

    需要条件独立假设,会牺牲一定准确率,分类性能不一定高

    极大似然估计详解

    机器学习经典算法优缺点

    相关文章

      网友评论

          本文标题:贝叶斯算法

          本文链接:https://www.haomeiwen.com/subject/qtjztftx.html