美文网首页
朴素贝叶斯

朴素贝叶斯

作者: 士多啤梨苹果橙_cc15 | 来源:发表于2017-08-02 15:55 被阅读0次

    转自微信公众号:机器学习算法与Python学习

    朴素贝叶斯:

    注意点:

    1. 如果给出的特征向量长度可能不同,需要归一化为同长度的向量(这里以文本分类为例),比如是句子单词的话,则长度为整个词汇量的长度,对应位置是该单词出现的次数。

    2. 计算公式:

    其中条件概率可以通过朴素贝叶斯独立条件展开,

    因此一般有两种,一种是在类别ci的那些样本集中,找到wj出现次数的综合,然后除以样本的总和。第二种方法是类别为ci的那些样本集中,找到wj出现的次数,然后除以该样本所有特征出现次数的总和。

    3. 如果P(w|ci)中的某一项为0,则其联合概率乘积也可能为0,。为了避免这种现象出现,一般会将这一项初始化为1,为了保证概率相当分母初始化为k(表示k类)叫做拉普拉斯平滑

    朴素贝叶斯的优点:对小规模数据表现很好,适合多分类任务,适合增量式训练。

    缺点:对数据的表达形式很敏感

    问题延伸:大家都知道朴素贝叶斯是一种分类监督算法,那么朴素贝叶斯可以用来聚类吗?

    答案是可以的。

    如果将贝叶斯方法进行聚类,可以把每个样本看成单独一类,用层次聚类的方法,依次找到后验概率最大的样本然后将它们聚合在一起。

    相关文章

      网友评论

          本文标题:朴素贝叶斯

          本文链接:https://www.haomeiwen.com/subject/jnxylxtx.html