美文网首页NLP从入门到精通
【Note】bk - Python NLP

【Note】bk - Python NLP

作者: 火禾子_ | 来源:发表于2019-02-28 10:54 被阅读0次

    ch1 nltk_data 的下载

    1、自动下载安装

    import nltk 
    nltk.download()
    

    这种方式一直没下载成功,可能是因为网络原因。

    2、手动载入安装
    (1)国内有人放到了 网盘链接。下载之后放在哪里是个问题。别担心,它会自己检测,键入 from nltk.book import *,结果会报错,其中有一段,如下

      Searched in:
        - '/Users/yarkona/nltk_data'
        - '/Users/yarkona/anaconda3/nltk_data'
        - '/Users/yarkona/anaconda3/share/nltk_data'
        - '/Users/yarkona/anaconda3/lib/nltk_data'
        - '/usr/share/nltk_data'
        - '/usr/local/share/nltk_data'
        - '/usr/lib/nltk_data'
        - '/usr/local/lib/nltk_data'
    

    我们只需要把下载下来的 nltk-data.zip 解压到以上的一个目录,就可以了。
    (2)由于很多链接容易年久失修,因此找到了 NLTK Corpus,应该比书中所用的数据集更多,列出如下方便参考:

    • NLTK Corpora: 点我。语料库没有打包在一起,需要哪个下哪个。
    • Github: 点我。整个一个 340M 多的 Zip,解压出 corpora 文件夹,放到 nltk 默认 nltk_data 所在文件夹下就都OK啦(PS. 默认文件夹的查询方式可参考(1))。如要换默认位置要在环境变量里做修改,具体看官网 http://www.nltk.org/data.html

    ch3 处理原始文本

    1. 处理 url 中既包含中文也包含英文的情况
    import urllib # 仅引用这一句会报错,因为它的子模块并没有被引入
    from urllib import parse
    from urllib import request
    search_word = '机器学习'
    search_word = urllib.parse.quote(search_word)
    url = 'https://www.baidu.com/s?wd=%s' % search_word
    html = urllib.request.urlopen(url).read()
    print(html[:50])
    

    相关文章

      网友评论

        本文标题:【Note】bk - Python NLP

        本文链接:https://www.haomeiwen.com/subject/lyicuqtx.html