NLTK是一个非常流行的NLP开源工具包,可以实现分词、词性标注、命名实体识别等基本的文本处理操作。在使用NLTK时候,我们往往需要下载语料来实现相关功能。以英文分词语料punkt
为例,官网给出的下载方式如下:
import nltk
nltk.download('punkt')
然而,这种下载方式往往非常慢,十几兆的东西往往需要下载好久,甚至卡住不动,非常耽误时间。因此,我们可以选择手动下载:
- 根据功能确定你需要的语料,如
punkt
- 打开语料库页面http://www.nltk.org/nltk_data/,选择对应的语料,点击
download
按钮下载 - 下载完成后,将zip文件移动到nltk的数据文件夹下。ubuntu默认是
/home/username/nltk_data/xxx
,这里username是你的用户名,xxx
是不同功能的语料库的文件夹,如punkt
是分词语料,则将punkt.zip移动到/home/username/nltk_data/tokenizer
下面,然后执行unzip punkt.zip
将其解压即可。 - 打开NLTK,可以发现已经可以使用分词功能了。
from nltk.tokenize import word_tokenize
s = "I'm a Chinese."
print(word_tokenize(s))
-------------------------------------------
['I', "'m", 'a', 'Chinese', '.']
网友评论