上篇文章介绍了两个通用型的框架,AllenNLP和Fairseq,这篇文章介绍几个常用于NLP预处理的库
Spacy
流行度:5星
在kaggle上最流行的两个NLP库就是Spacy和NLTK,而Spacy比NLTK更新更先进,刚推出时主打的就是工业级的NLP库,它的文档和API设计很漂亮,如果精力有限,建议只学Spacy。使用Spacy可以方便的解决分词、POS tagging、NER等任务,它支持59+语言还提供了一些预训练好的word vector。
NLTK
流行度:5星
很多人估计都看过oreilly那本NLP书,其中就是用的NLTK做讲解。不过个人更喜欢Spacy,毕竟后出来的工具想获得大量用户,肯定有它的优势。
TorchText
流行度:4星
官网:https://torchtext.readthedocs.io/en/latest/
这是Pytorch官方支持的一个库,大家知道Pytorch中有torchvision,于是可以猜到torchtext就是要在nlp领域里对标torchvision。如果你使用Pytorch做深度学习,那么torchtext可以很容易的跟pytorch后续模型训练做串接,帮你把文本数据预处理。也可以利用它来使用预训练的word embedings,比如Facebook自家的FastText。这里有个例子:
BERT Text Classification Using Pytorch
译自
[1] https://towardsdatascience.com/top-nlp-libraries-to-use-2020-4f700cdb841f
网友评论