美文网首页
文本表示|独热编码|整数编码|词嵌入

文本表示|独热编码|整数编码|词嵌入

作者: 程非池的小软 | 来源:发表于2022-04-05 09:20 被阅读0次

    文本表示(Representation)

    作用:将非结构化的信息(文本)转化为结构化的信息(向量)

    文本表示的方法:

    1.one-hot representation 独热编码
    2.整数编码
    3.word embedding 词嵌入

    word embedding 词嵌入

    优点:
    1.可以将文本通过地位向量来表达
    2.语意相似的词在向量空间上也会比较相近
    3.通用性强,可用于不同的任务中

    主流的 word embedding 算法:word2vec GLoVe

    word2vec
    一种基于统计方法来获得词向量的方法
    两种训练模式:
    1.通过上下文来预测当前词
    2.通过当前词来预测上下文

    GloVe
    对word2vec的扩展
    将全据统计和word2vec的基于上下文的学习结合了起来

    相关文章

      网友评论

          本文标题:文本表示|独热编码|整数编码|词嵌入

          本文链接:https://www.haomeiwen.com/subject/wyfksrtx.html