BOW模型

作者: Casablanca_InGT | 来源:发表于2017-11-30 20:02 被阅读0次

    1.BOW: Bag of words 词袋模型。
    2.Bg: 最初被用在文本分类中,将文档表示成特征矢量。它的基本思想是假定对于一个文本,忽略其词序和语法、句法(这也是词袋模型的缺点),仅仅将其看做是一些词汇的集合,而文本中的每个词汇都是独立的。简单说就是讲每篇文档都看成一个袋子(因为里面装的都是词汇,所以称为词袋。
    3.实例:
    文档一:Bob likes to play basketball, Jim likes too.
    文档二:Bob also likes to play football games.

    首先基于这两个文本文档,构造一个词典:
    Dictionary = {1:”Bob”, 2. “like”, 3. “to”, 4. “play”, 5. “basketball”, 6. “also”, 7. “football”,8. “games”, 9. “Jim”, 10. “too”}。

    然后这个词典一共包含10个不同的单词,利用词典的索引号,上面两个文档每一个都可以用一个10维向量表示(用整数数字0~n(n为正整数)表示某个单词在文档中出现的次数):
    1:[1, 2, 1, 1, 1, 0, 0, 0, 1, 1]
    2:[1, 1, 1, 1 ,0, 1, 1, 1, 0, 0]

    相关文章

      网友评论

          本文标题:BOW模型

          本文链接:https://www.haomeiwen.com/subject/ympluxtx.html