美文网首页
朴素贝叶斯

朴素贝叶斯

作者: 李静数据分析 | 来源:发表于2019-08-01 10:49 被阅读0次

    理论基础

    • 条件概率:朴素贝叶斯最核心的部分是贝叶斯法则,而贝叶斯法则的基石是条件概率。贝叶斯法则如下:
      p\left(c_{i} | x, y\right)=\frac{p\left(x, y | c_{i}\right) p\left(c_{i}\right)}{p(x, y)}
    • 词集模型:对于给定文档,只统计某个侮辱性词汇(准确说是词条)是否在本文档出现。
    • 词袋模型:对于给定文档,统计某个侮辱性词汇在本文当中出现的频率,除此之外,往往还需要剔除重要性极低的高频词和停用词。因此,词袋模型更精炼,也更有效。

    特殊情况处理

    • 处理概率为0的情况:平滑处理

    总结

    • 不同于其它分类器,朴素贝叶斯是一种基于概率理论的分类算法;
    • 特征之间的条件独立性假设,显然这种假设显得“粗鲁”而不符合实际,这也是名称中“朴素”的由来。然而事实证明,朴素贝叶斯在有些领域很有用,比如垃圾邮件过滤;
    • 在具体的算法实施中,要考虑很多实际问题。比如因为“下溢”问题,需要对概率乘积取对数;再比如词集模型和词袋模型,还有停用词和无意义的高频词的剔除,以及大量的数据预处理问题,等等;
    • 总体上来说,朴素贝叶斯原理和实现都比较简单,学习和预测的效率都很高,是一种经典而常用的分类算法。

    相关文章

      网友评论

          本文标题:朴素贝叶斯

          本文链接:https://www.haomeiwen.com/subject/dhifdctx.html