美文网首页
關於英文預處理

關於英文預處理

作者: 阿o醒 | 来源:发表于2016-12-21 20:32 被阅读127次

    分詞 tokenize

    不要想當然使用split()進行分詞,這樣的分詞並不會去掉標點符號。
    常用的分詞工具在nltk中就有。

    1. tokenizer
    from nltk import word_tokenize
    content = word_tokenize(html_doc.decode('utf8'))
    

    但是這個就不能去除標點符號了

    1. RegexpTokenizer
    from nltk.tokenize import RegexpTokenizer
    tokenizer = RegexpTokenizer(r'\w+')
    content = tokenizer.tokenize(html_doc.decode('utf8'))
    

    保留詞乾 Stemming

    # cdoe for stemming
    from nltk.stem.porter import PorterStemmer 
    porter_stemmer = PorterStemmer()
    porter_stemmer.stem(word.lower().decode('utf-8'))
    

    相关文章

      网友评论

          本文标题:關於英文預處理

          本文链接:https://www.haomeiwen.com/subject/tizqvttx.html