美文网首页
预训练文本表示学习资料

预训练文本表示学习资料

作者: 松鼠的读书笔记 | 来源:发表于2019-02-24 18:31 被阅读5次

    文本表示,简单来说,就是把字符串变为数学上易于处理的向量,而怎么把字符串变成向量,这就是文本表示的核心问题,也是自然语言处理中的基本问题。

    01 文本表示粒度

    • 词表示
    • 句子表示(短文本)
    • 文本表示

    02 文本表示方法

    • 离散表示:1-hot表示,词袋模型, TF-IDF
    • word embedding:
      • 用于初始化神经网络第一层: word2vec, GLoVe
      • 用于有监督的Fine-tuning: ELMo, ULMFiT, GPT, Bert

    03 相关学习资料

    [1] 从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史
    [2] NLP的游戏规则从此改写?从word2vec, ELMo到BERT
    [3] 文献阅读笔记—ELMO:Deep contextualized word representations
    [4] 文献阅读笔记—Universal Language Model Fine-tuning for Text Classification
    [5] 文献阅读笔记—openAI GPT:Improving Language Understanding by Generative Pre-Training
    [6] 文献阅读笔记—BERT: Pretraining of Deep Bidirectional Transformers for Language Understanding
    [7] Tutorial on Text Classification (NLP) using ULMFiT and fastai Library in Python
    [8] Introduction to Flair for NLP: A Simple yet Powerful State-of-the-Art NLP Library
    [9] 上下文预训练模型最全整理:原理、应用、开源代码、数据分享


    这是一篇占坑文,先分享一些我收集的资料,后续分享关于文本表示的学习笔记。点个赞鼓励一下小树吧!

    相关文章

      网友评论

          本文标题:预训练文本表示学习资料

          本文链接:https://www.haomeiwen.com/subject/ybcbyqtx.html