设置停用词列表,处理中文文档
训练集也就是a,b 的词频统计结果,词汇列表、字典为:
这个属性一般用来程序员自我检查停用词是否正确,在pickling的时候可以设置stop_words_为None是安全的。
参考如下链接整理:
http://stackoverflow.com/questions/27488446/scikit-learn-countvectorizer
http://www.itkeyword.com/doc/4813494854317445586/TfidfVectorizer-sklearn-CountVectorizer
这个链接写的很棒,主要参考他的:
https://blog.csdn.net/Datawhale/article/details/82317529
————————————————
(转自:https://blog.csdn.net/weixin_38278334/article/details/82320307)
网友评论