NLTK手动下载语料

NLTK手动下载语料

作者: WritingHere | 来源:发表于2021-04-24 22:50 被阅读0次

NLTK手动下载语料
Python自然语言处理学习笔记（二）
nltk 获取 gutenberg 语料，gensim 生成词库
离线安装NLTK Data
【Note】bk - Python NLP
python自然语言处理学习笔记（二）—— 语料库
NLP基本步骤及原理
pip install genism、nltk
NLP基础
NLTK下载数据报错

NLTK是一个非常流行的NLP开源工具包，可以实现分词、词性标注、命名实体识别等基本的文本处理操作。在使用NLTK时候，我们往往需要下载语料来实现相关功能。以英文分词语料punkt为例，官网给出的下载方式如下：

import nltk
nltk.download('punkt')

然而，这种下载方式往往非常慢，十几兆的东西往往需要下载好久，甚至卡住不动，非常耽误时间。因此，我们可以选择手动下载：

根据功能确定你需要的语料，如punkt
打开语料库页面http://www.nltk.org/nltk_data/，选择对应的语料，点击download按钮下载
下载完成后，将zip文件移动到nltk的数据文件夹下。ubuntu默认是/home/username/nltk_data/xxx，这里username是你的用户名，xxx是不同功能的语料库的文件夹，如punkt是分词语料，则将punkt.zip移动到/home/username/nltk_data/tokenizer下面，然后执行unzip punkt.zip将其解压即可。
打开NLTK，可以发现已经可以使用分词功能了。

from nltk.tokenize import word_tokenize

s = "I'm a Chinese."
print(word_tokenize(s))
-------------------------------------------
['I', "'m", 'a', 'Chinese', '.']

相关文章

NLTK手动下载语料
NLTK是一个非常流行的NLP开源工具包，可以实现分词、词性标注、命名实体识别等基本的文本处理操作。在使用NLTK...
Python自然语言处理学习笔记（二）
1.文本语料库 1）内容导入corpus包得到各个文本语料库：from nltk.corpus import *...
nltk 获取 gutenberg 语料，gensim 生成词库
nltk 获取 gutenberg 语料gensim 生成词库和 onehot 编码正在尝试基于 Tensorfl...
离线安装NLTK Data
1.下载nltk_data 下载地址: https://github.com/nltk/nltk_data/tre...
【Note】bk - Python NLP
ch1 nltk_data 的下载 1、自动下载安装这种方式一直没下载成功，可能是因为网络原因。 2、手动载入安...
python自然语言处理学习笔记（二）—— 语料库
一、获取文本语料库 1. 古腾堡语料库 NLTK包含古腾堡项目(Project Gutenberg)电子文本档案的...
NLP基本步骤及原理
本文目录第一章：文本预处理（Preprocess）1.1NLTK自然语言处理库1.1.1 NLTK自带语料库第二章...
pip install genism、nltk
下载nltkdata的时候：nltk.set_proxy('SYSTEM PROXY')nltk.download...
NLP基础
NLP基础 NLP涉及知识 NLTK库分词 TF-IDF 手动操作安装NLTK库代码小练什么是NLP 词处理...
NLTK下载数据报错
NLTK是一个比较优秀的自然语言处理工具包,通常使用如下命令下载 import nltk nltk.downloa...

网友评论

本文标题：NLTK手动下载语料

本文链接：https://www.haomeiwen.com/subject/fpnjrltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|NLTK手动下载语料|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！