【Note】bk - Python NLP

作者: 火禾子_ | 来源:发表于2019-02-28 10:54 被阅读0次

【Note】bk - Python NLP
NOTE_NLP表
小作品： Python 锤子便签
Python进阶（装饰器）
Python Notes (1) - Syntax and St
StanfordCoreNLP 踩过的坑（python，java
Python Notes (4) - Lists and Dic
Python扫雷游戏
Python 解决：NameError: name 'relo
Python用于NLP ：处理文本和PDF文件

ch1 nltk_data 的下载

1、自动下载安装

import nltk 
nltk.download()

这种方式一直没下载成功，可能是因为网络原因。

2、手动载入安装
（1）国内有人放到了网盘链接。下载之后放在哪里是个问题。别担心，它会自己检测，键入 from nltk.book import *，结果会报错，其中有一段，如下

  Searched in:
    - '/Users/yarkona/nltk_data'
    - '/Users/yarkona/anaconda3/nltk_data'
    - '/Users/yarkona/anaconda3/share/nltk_data'
    - '/Users/yarkona/anaconda3/lib/nltk_data'
    - '/usr/share/nltk_data'
    - '/usr/local/share/nltk_data'
    - '/usr/lib/nltk_data'
    - '/usr/local/lib/nltk_data'

我们只需要把下载下来的 nltk-data.zip 解压到以上的一个目录，就可以了。
（2）由于很多链接容易年久失修，因此找到了 NLTK Corpus，应该比书中所用的数据集更多，列出如下方便参考：

NLTK Corpora：点我。语料库没有打包在一起，需要哪个下哪个。
Github: 点我。整个一个 340M 多的 Zip，解压出 corpora 文件夹，放到 nltk 默认 nltk_data 所在文件夹下就都OK啦（PS. 默认文件夹的查询方式可参考（1））。如要换默认位置要在环境变量里做修改，具体看官网 http://www.nltk.org/data.html。

ch3 处理原始文本

处理 url 中既包含中文也包含英文的情况

import urllib # 仅引用这一句会报错，因为它的子模块并没有被引入
from urllib import parse
from urllib import request
search_word = '机器学习'
search_word = urllib.parse.quote(search_word)
url = 'https://www.baidu.com/s?wd=%s' % search_word
html = urllib.request.urlopen(url).read()
print(html[:50])