机器学习-sklearn分类简书文章

作者: 刘小白DOER | 来源:发表于2021-10-24 09:54 被阅读0次

继Python分析我的简书文章后，笔者分析自己的32万字的简书文章后，很多无意义的词语出现的频率高的缘故，生成的词云图并不很理想。今天笔者把以前看过的kmean文档分类和这个脚本结合起来，用机器学习来对32万字的简书文章文本特征提取，对词语分分类。

基于上篇找到所有简书文章的文本后，还需要两个重要的sklearn库：TfidfVectorizer和KMeans。TfidfVectorizer将文本数据转化成特征向量，KMeans聚类算法完成文章分类。

TfidfVectorizer考量某词汇在文本出现的频率，还关注包含这个词汇的所有文本的数量，能够削减高频没有意义的词汇出现带来的影响, 挖掘更有意义的特征。

k均值聚类算法根据特征向量来划分样本，聚类算法为K-means++ 。

下面是原始的kmean文档分类的代码，结果也符合语境。documents学习的文本特征十分明显，在输出聚类时也分的清晰，预测也准确。

将上面的代码和笔者的Python分析我的简书文章结合之后，使用机器学习来看看笔者的全部文章。这里需要对以前的字符串文本简单处理，将文章一篇篇的作为字符串append到list列表中。代码托管在：python/my_jianshu_wordcloud_sklearn.py at main · laufei90/python (github.com)

最后运行结果如下，截取部分分类。笔者的技术文章没有区分的很明显，分类效果也一般，但是隐约可以看到有树莓派、数据通信、linux运维方面的知识。