美文网首页
词向量模型

词向量模型

作者: 茶尽 | 来源:发表于2018-04-18 11:30 被阅读0次

词向量

重点在于把符号数字化,nlp中最直观的方法是one-hot representation,每个词表示为一个向量,长度为词表大小,只有一个维度值为1.优点在于,如果采用稀疏方式存储很简洁。编程实现可以用hash表给每个词分配编号,搭配上最大熵、SVM、CRF等很好用了。缺点:词汇鸿沟。
一般采用的词向量是distributed representation,表示低维实数向量。维度常见50维和100维。可以让相关或相似的词,距离上更接近,用欧氏距离或者cos夹角测量。

词向量训练

最经典:C&W 2008、M&H 2008、Mikolov 2010
语言模型,判断一句话是不是通顺。

相关文章

  • 任务1:词向量分布

    要点一:提问:词向量是学习得来的吗? 答:是的。段落+模型->词向量 要点二:什么是语言模型 ?训练语言模型是要让...

  • 词向量模型

    词向量 重点在于把符号数字化,nlp中最直观的方法是one-hot representation,每个词表示为一个...

  • python文本相似度计算

    步骤 分词、去停用词 词袋模型向量化文本 TF-IDF模型向量化文本 LSI模型向量化文本 计算相似度 理论知识 ...

  • 动态词向量算法 — ELMo

    传统的词向量模型,例如 Word2Vec 和 Glove 学习得到的词向量是固定不变的,即一个单词只有一种词向量,...

  • Word2vec

    预备知识:LR、贝叶斯公式、赫夫曼编码、统计语言模型、n-gram模型、神经概率语言模型、词向量、词袋模型、sof...

  • 探秘Word2Vec(二)-背景知识

    word2vec是用来生成词向量的工具,而词向量与语言模型有着密切的关系,为此,不妨先来了解一些语言模型方面的知识...

  • 基于word2vec训练词向量(一)

    1.回顾DNN训练词向量 上次说到了通过DNN模型训练词获得词向量,这次来讲解下如何用word2vec训练词获取词...

  • NLP-词向量:词袋模型

    一、前言 词袋模型是早些年使用的词向量模型,该模型假设每个词都是独立的,仅仅使用词在文章中的频率来决定如何表达词,...

  • 智能问答初识

    1. 智能问答的一般实现步骤包括:1)文本库分词,训练模型,由模型将文本库转换为词向量;2)将词向量与索引进行存储...

  • 词向量构造 - 词袋模型

    对于机器学习任务而言,不管是什么类型的数据(语言,声音,图像,视频),都必须转化为数值型数据,一般均为向量或者矩阵...

网友评论

      本文标题:词向量模型

      本文链接:https://www.haomeiwen.com/subject/maoqkftx.html