美文网首页
(22)文本表示模型

(22)文本表示模型

作者: 顽皮的石头7788121 | 来源:发表于2018-11-30 17:37 被阅读0次

(1)TF-IDF模型

    属于词袋模型,TF-IDF(t,d)= TF(t,d)*IDF(t)

        TF(t,d)表示单词t在文档d中出现的频率。

        IDF(t)是逆文档频率。用来衡量单词t对表达语义所起的重要性。

        IDF(t) = 文章总数/(包含单词t的文章的总数+1);直观解释是,如果一个单词在非常多的文档里都出现,那么它可能是一个比较通用的的词汇,对于区分某篇文章特殊语义的共享比较小,因此对权重做惩罚。

        将文章按单词分类,忽略了单词前后联系。通常会将连续的词作为一个单独的特征放到向量表中去。同时提取词干,将同一单词不同形式确认为同一个单词。

        词袋模型有一个明显的缺陷,就是无法识别两个不同的单词有相同的主题。

(2)主题模型LDA(隐狄利克雷模型)

        利用文档中的单词的共现关系来对单词按主题聚类。得到文档-主题和主题-单词两个概率分布。

        主题模型是一种基于概率图模型的生成式模型。当两个词有相同的主题时,更容易出现在同一篇文档中。也就是说,给定某一个主题,这两个词出现的概率都很高,而其他词出现的概率就比较小。

        假设有K个主题,我们把任意文章表示成一个K维主题向量,向量的每一维度表示一个主题,权重表示其属于这一维度的概率。

        LDA是PLSA的贝叶斯版本。PLSA时属于频率派思想,LDA时贝叶斯学派,其文本生成过程和PLSA基本相同,但是为主题分布和词分布加了两个狄利克雷分先验。即PLSA认为p(w|z)p(z|d)是确定的未知常数,可以求解;LDA认为是不确定的,但是符合狄利克雷分布。

(3)主题模型PLSA

        假设有K个主题,M篇文章,对于人意文章d,假设文章有N个单词,对于每个词,选择一个主题 Z,在Z的基础上生成一个单词w.则生成概率为P(w,d) = \sum p(w|z)p(z|d)

PLSA 

        用极大似然估计发估计,得到其似然函数L = \prod\nolimits_{m}^M  \prod\nolimits_{n}^N p(d_{m},w_{n}  )   =  \prod\nolimits_{m}^\check{M}   \prod\nolimits_{n}^\check{N} p(d_{m},w_{n} )^{n(d_{m},w_{n}) }

求其对数似然

l = \prod\nolimits_{m}^M  \prod\nolimits_{n}^N n(d_{m},w_{n}) logp(d_{m},w_{n}  )   =  \prod\nolimits_{m}^\check{M}   \prod\nolimits_{n}^\check{N} n(d_{m},w_{n}) logp(d_{m} )  p(w_{n}|d_{m})

其中  p(w_{n}|d_{m}) = \sum_{k}^K  p(z_{k}|d_{m})p(w_{n}|z_{k});由于z无法求解,一般使用 EM算法求解

(4)Word2vec(词嵌入方法)

    词嵌入模型是一般为神经网络模型。

    一种浅层神经网络模型,有两种网络结构:CBOW和Skip-gram。

    这两个不同的网络结构的区别是CBOW是根据上下文预测当前词的生成频率;Skip-gram是根据当前词来预测上下文中各词的生成频率。

    

两种不同的词向量模型

    输入层每个词都是热独编码,输出层使用softmax预测每个词出现的概率。

相关文章

  • (22)文本表示模型

    (1)TF-IDF模型 属于词袋模型,TF-IDF(t,d)= TF(t,d)*IDF(t) TF(t,d)表示...

  • nlp面试题大全

    自然语言处理面试题 有哪些文本表示模型,它们各有什么优缺点? 词袋模型与N-gram  最基本的文本表示模型是词袋...

  • 常用的文本表示模型

    一般情况下,文本都是由句子组成的,句子都是由词组成的。在介绍文本表示方式之前,有必要了解一下词的常用表示方式。 词...

  • 常用的文本表示模型(重发)

    之前这篇文章因为敏感关键词被下架了,现在将一些词语换成星号重发,希望大家能够理解。 一般情况下,文本都是由句子组成...

  • Global Vectors for Word Represen

    全局词向量文本表示 概述: 当前提出来的全局文本表示(GloVe)涵盖了两种主流的模型家族: 1. 全局矩阵分解 ...

  • 基于LDA主题模型的短文本分类

    VSM(向量空间模型)是信息检索领域最为经典的分析模型之一,采用VSM对短文本进行建模,即将每一篇短文本表示为向...

  • 文本表示

    Neil Zhu,简书ID Not_GOD,University AI 创始人 & Chief Scientist...

  • NLP 学习3

    Task3 基于机器学习的文本分类 文本表示方式 one-hot Bags of Words 词袋模型1.若采用只...

  • 怎样把文档转换成向量

    文本分析 文本分析指从文本中抽取出的特征来量化来表示文本信息,并在此基础上对其进行基于数学模型的处理。它是文本挖掘...

  • NLP文本的离散表示

    文本的离散表示(2022-03-07) one-hot表示 词袋模型 TF-IDF N-gram one-hot表...

网友评论

      本文标题:(22)文本表示模型

      本文链接:https://www.haomeiwen.com/subject/rjohcqtx.html