美文网首页
top10 NLP library 02

top10 NLP library 02

作者: writer_zero | 来源:发表于2021-01-07 18:00 被阅读0次

    上篇文章介绍了两个通用型的框架,AllenNLP和Fairseq,这篇文章介绍几个常用于NLP预处理的库

    Spacy

    流行度:5星

    官网:https://spacy.io/

    在kaggle上最流行的两个NLP库就是Spacy和NLTK,而Spacy比NLTK更新更先进,刚推出时主打的就是工业级的NLP库,它的文档和API设计很漂亮,如果精力有限,建议只学Spacy。使用Spacy可以方便的解决分词、POS tagging、NER等任务,它支持59+语言还提供了一些预训练好的word vector。

    NLTK

    流行度:5星

    官网:https://www.nltk.org/

    很多人估计都看过oreilly那本NLP书,其中就是用的NLTK做讲解。不过个人更喜欢Spacy,毕竟后出来的工具想获得大量用户,肯定有它的优势。

    TorchText

    流行度:4星

    官网:https://torchtext.readthedocs.io/en/latest/

    这是Pytorch官方支持的一个库,大家知道Pytorch中有torchvision,于是可以猜到torchtext就是要在nlp领域里对标torchvision。如果你使用Pytorch做深度学习,那么torchtext可以很容易的跟pytorch后续模型训练做串接,帮你把文本数据预处理。也可以利用它来使用预训练的word embedings,比如Facebook自家的FastText。这里有个例子:

    BERT Text Classification Using Pytorch

    译自

    [1] https://towardsdatascience.com/top-nlp-libraries-to-use-2020-4f700cdb841f

    相关文章

      网友评论

          本文标题:top10 NLP library 02

          本文链接:https://www.haomeiwen.com/subject/xngooktx.html