美文网首页Machine Learning & Recommendation & NLP & DL
自然语言处理N天-AllenNLP学习(How-to 01)

自然语言处理N天-AllenNLP学习(How-to 01)

作者: 我的昵称违规了 | 来源:发表于2019-04-01 09:39 被阅读4次
    新建 Microsoft PowerPoint 演示文稿 (2).jpg

    有一篇帖子总结了学习处理NLP问题中间的坑。NLP数据预处理要比CV的麻烦很多。

    • 去除停用词,建立词典,加载各种预训练词向量,Sentence -> Word ID -> Word Embedding的过程(Tobias Lee:文本预处理方法小记),其中不仅需要学习pytorch,可能还要学习spacy,NLTK,numpy,pandas,tensorboardX等常用python包。
    • 用到RNN时,还要经过pad,pack,pad的过程,像这样的很多函数在使用时需要有数学基础加上简单的实践,感觉对一个新人来说,高维数据的流动有点抽象,不容易理解。
    • 数据集的读取,tensorboardX的使用。。。。各种东西要学习。在运行别人的代码后打印出信息,不仅看着上档次,而且可以看到很多实用的信息。。。

    AllenNLP是在pytorch基础上的封装,它的目标是处理NLP任务,可以减少很多额外的学习。

    • 分词,帮你用spacy,NLTK,或者简单的按空格分词处理。
    • 数据集的读取,它内置了很多数据集的读取,你可以在通过学习它的读取方式,在它的基础上对自己需要的数据集进行读取。 、
    • 在Sentence -> Word ID -> Word Embedding的过程中,Glove,ELMo,BERT等常用的都可以直接使用,需要word,char粒度的都可以。
    • log打印输出,在内置的输出项之外,你可以很方便地加入想要输出的信息。模型的各个组件中的参数都可以存在一个json/jsonnet文件中,修改参数进行实验很方便。

    我又回来了,Pytorch的学习也是为了熟悉AllenNLP结构,所以,在完成基础tutorial之后又折回来继续学AllenNLP。四月份的目标是复现那篇论文中的结构并使用Finetuning完成Transformer。
    今天开始AllenNLP入门的第二部分How-to。总共包括七个小节。

    • Create your own Configuration File
    • How to train a model with lazy data
    • How to train and use a Transformer-based ELMo
    • How to Debug Your AllenNLP Code
    • How to visualize model internals (BETA)
    • Using pre-trained ELMo representations
    • Using span representations

    相关文章

      网友评论

        本文标题:自然语言处理N天-AllenNLP学习(How-to 01)

        本文链接:https://www.haomeiwen.com/subject/jurmbqtx.html