美文网首页
關於英文預處理

關於英文預處理

作者: 阿o醒 | 来源:发表于2016-12-21 20:32 被阅读127次

分詞 tokenize

不要想當然使用split()進行分詞,這樣的分詞並不會去掉標點符號。
常用的分詞工具在nltk中就有。

  1. tokenizer
from nltk import word_tokenize
content = word_tokenize(html_doc.decode('utf8'))

但是這個就不能去除標點符號了

  1. RegexpTokenizer
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'\w+')
content = tokenizer.tokenize(html_doc.decode('utf8'))

保留詞乾 Stemming

# cdoe for stemming
from nltk.stem.porter import PorterStemmer 
porter_stemmer = PorterStemmer()
porter_stemmer.stem(word.lower().decode('utf-8'))

相关文章

  • 關於英文預處理

    分詞 tokenize 不要想當然使用split()進行分詞,這樣的分詞並不會去掉標點符號。常用的分詞工具在nlt...

  • [234]北大Java 9.3正則表達式(Regular exp

    9.3.1 基本寫法:匹配符、處理文本、關於字符9.3.2 基本應用:分割RegexSpiliter.java 還...

  • 當下閱讀、當下處理

    關鍵不在於讀了多少,而是處理了多少。如果不再把資訊納入稍後閱讀流程,而是聚焦在把可以處理份量的資訊納入處理流程,轉...

  • 好一個河南建業

    不是懷疑也不是記恨什麼的,單純的不爽,關於處理方式,關於態度。 圖上的光頭是拍照很牛掰的班長。中午這個新楓采記招會...

  • 白玫瑰~

    素描白玫瑰~明暗關係處理失敗~

  • 讀杜偶得

    詩之佳處,非在乎僻字古詞。詩之佳處,於意趣中出,於法度變化中出,於物情關系中出。老杜意趣多態,非唯質實沈郁,其飄逸...

  • 自我發展#39 - 如何處理關係中的失去

    出處:得到專欄 自我發展心理學39 關係轉變:如何處理關係中的失去? 結束是一種特殊形式的死亡,關係的轉變中,最痛...

  • 学会今天为自己的情绪负责任

    积极、感恩、為自己的情緒負責⋯⋯⋯ 人,對未來的過於關注,會帶來不安、焦慮和恐懼,使自己處理今日時更脆弱和混亂。 ...

  • 批隙导款

    批隙导款:批:擊;郤:空隙;窾:骨節空處。從骨頭接合處批開,無骨處則就勢分解。比喻善於從關鍵處入手,順利解決問題。...

  • 自我發展#31 - 如何擁有高質量的關係

    出處:得到專欄 自我發展心理學31 課題分離:如何擁有高質量的關係 處理人際關係的一個基本原則 - 課題分離。 為...

网友评论

      本文标题:關於英文預處理

      本文链接:https://www.haomeiwen.com/subject/tizqvttx.html