文本表示,简单来说,就是把字符串变为数学上易于处理的向量,而怎么把字符串变成向量,这就是文本表示的核心问题,也是自然语言处理中的基本问题。
01 文本表示粒度
- 词表示
- 句子表示(短文本)
- 文本表示
02 文本表示方法
- 离散表示:1-hot表示,词袋模型, TF-IDF
- word embedding:
- 用于初始化神经网络第一层: word2vec, GLoVe
- 用于有监督的Fine-tuning: ELMo, ULMFiT, GPT, Bert
03 相关学习资料
[1] 从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史
[2] NLP的游戏规则从此改写?从word2vec, ELMo到BERT
[3] 文献阅读笔记—ELMO:Deep contextualized word representations
[4] 文献阅读笔记—Universal Language Model Fine-tuning for Text Classification
[5] 文献阅读笔记—openAI GPT:Improving Language Understanding by Generative Pre-Training
[6] 文献阅读笔记—BERT: Pretraining of Deep Bidirectional Transformers for Language Understanding
[7] Tutorial on Text Classification (NLP) using ULMFiT and fastai Library in Python
[8] Introduction to Flair for NLP: A Simple yet Powerful State-of-the-Art NLP Library
[9] 上下文预训练模型最全整理:原理、应用、开源代码、数据分享
这是一篇占坑文,先分享一些我收集的资料,后续分享关于文本表示的学习笔记。点个赞鼓励一下小树吧!
网友评论