分詞 tokenize

不要想當然使用split()進行分詞，這樣的分詞並不會去掉標點符號。
常用的分詞工具在nltk中就有。

tokenizer

from nltk import word_tokenize
content = word_tokenize(html_doc.decode('utf8'))

但是這個就不能去除標點符號了

RegexpTokenizer

from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'\w+')
content = tokenizer.tokenize(html_doc.decode('utf8'))

保留詞乾 Stemming

# cdoe for stemming
from nltk.stem.porter import PorterStemmer 
porter_stemmer = PorterStemmer()
porter_stemmer.stem(word.lower().decode('utf-8'))

關於英文預處理
分詞 tokenize 不要想當然使用split()進行分詞，這樣的分詞並不會去掉標點符號。常用的分詞工具在nlt...
[234]北大Java 9.3正則表達式(Regular exp
9.3.1 基本寫法：匹配符、處理文本、關於字符9.3.2 基本應用：分割RegexSpiliter.java 還...
當下閱讀、當下處理
關鍵不在於讀了多少，而是處理了多少。如果不再把資訊納入稍後閱讀流程，而是聚焦在把可以處理份量的資訊納入處理流程，轉...
好一個河南建業
不是懷疑也不是記恨什麼的，單純的不爽，關於處理方式，關於態度。圖上的光頭是拍照很牛掰的班長。中午這個新楓采記招會...
白玫瑰~
素描白玫瑰~明暗關係處理失敗~
讀杜偶得
詩之佳處，非在乎僻字古詞。詩之佳處，於意趣中出，於法度變化中出，於物情關系中出。老杜意趣多態，非唯質實沈郁，其飄逸...
自我發展#39 - 如何處理關係中的失去
出處：得到專欄自我發展心理學39 關係轉變：如何處理關係中的失去？結束是一種特殊形式的死亡，關係的轉變中，最痛...
学会今天为自己的情绪负责任
积极、感恩、為自己的情緒負責⋯⋯⋯ 人，對未來的過於關注，會帶來不安、焦慮和恐懼，使自己處理今日時更脆弱和混亂。 ...
批隙导款
批隙导款：批：擊；郤：空隙；窾：骨節空處。從骨頭接合處批開，無骨處則就勢分解。比喻善於從關鍵處入手，順利解決問題。...
自我發展#31 - 如何擁有高質量的關係
出處：得到專欄自我發展心理學31 課題分離：如何擁有高質量的關係處理人際關係的一個基本原則 - 課題分離。為...