美文网首页
NLTK手动下载语料

NLTK手动下载语料

作者: WritingHere | 来源:发表于2021-04-24 22:50 被阅读0次

NLTK是一个非常流行的NLP开源工具包,可以实现分词、词性标注、命名实体识别等基本的文本处理操作。在使用NLTK时候,我们往往需要下载语料来实现相关功能。以英文分词语料punkt为例,官网给出的下载方式如下:

import nltk
nltk.download('punkt')

然而,这种下载方式往往非常慢,十几兆的东西往往需要下载好久,甚至卡住不动,非常耽误时间。因此,我们可以选择手动下载:

  • 根据功能确定你需要的语料,如punkt
  • 打开语料库页面http://www.nltk.org/nltk_data/,选择对应的语料,点击download按钮下载
  • 下载完成后,将zip文件移动到nltk的数据文件夹下。ubuntu默认是/home/username/nltk_data/xxx,这里username是你的用户名,xxx是不同功能的语料库的文件夹,如punkt是分词语料,则将punkt.zip移动到/home/username/nltk_data/tokenizer下面,然后执行unzip punkt.zip将其解压即可。
  • 打开NLTK,可以发现已经可以使用分词功能了。
from nltk.tokenize import word_tokenize

s = "I'm a Chinese."
print(word_tokenize(s))
-------------------------------------------
['I', "'m", 'a', 'Chinese', '.']

相关文章

网友评论

      本文标题:NLTK手动下载语料

      本文链接:https://www.haomeiwen.com/subject/fpnjrltx.html