ch1 nltk_data 的下载
1、自动下载安装
import nltk
nltk.download()
这种方式一直没下载成功,可能是因为网络原因。
2、手动载入安装
(1)国内有人放到了 网盘链接。下载之后放在哪里是个问题。别担心,它会自己检测,键入 from nltk.book import *
,结果会报错,其中有一段,如下
Searched in:
- '/Users/yarkona/nltk_data'
- '/Users/yarkona/anaconda3/nltk_data'
- '/Users/yarkona/anaconda3/share/nltk_data'
- '/Users/yarkona/anaconda3/lib/nltk_data'
- '/usr/share/nltk_data'
- '/usr/local/share/nltk_data'
- '/usr/lib/nltk_data'
- '/usr/local/lib/nltk_data'
我们只需要把下载下来的 nltk-data.zip 解压到以上的一个目录,就可以了。
(2)由于很多链接容易年久失修,因此找到了 NLTK Corpus,应该比书中所用的数据集更多,列出如下方便参考:
- NLTK Corpora: 点我。语料库没有打包在一起,需要哪个下哪个。
- Github: 点我。整个一个 340M 多的 Zip,解压出 corpora 文件夹,放到 nltk 默认 nltk_data 所在文件夹下就都OK啦(PS. 默认文件夹的查询方式可参考(1))。如要换默认位置要在环境变量里做修改,具体看官网 http://www.nltk.org/data.html。
ch3 处理原始文本
- 处理 url 中既包含中文也包含英文的情况
import urllib # 仅引用这一句会报错,因为它的子模块并没有被引入
from urllib import parse
from urllib import request
search_word = '机器学习'
search_word = urllib.parse.quote(search_word)
url = 'https://www.baidu.com/s?wd=%s' % search_word
html = urllib.request.urlopen(url).read()
print(html[:50])
网友评论