美文网首页
机器学习-sklearn分类简书文章

机器学习-sklearn分类简书文章

作者: 刘小白DOER | 来源:发表于2021-10-24 09:54 被阅读0次

        继Python分析我的简书文章后,笔者分析自己的32万字的简书文章后,很多无意义的词语出现的频率高的缘故,生成的词云图并不很理想。今天笔者把以前看过的kmean文档分类和这个脚本结合起来,用机器学习来对32万字的简书文章文本特征提取,对词语分分类。

        基于上篇找到所有简书文章的文本后,还需要两个重要的sklearn库:TfidfVectorizer和KMeans。TfidfVectorizer将文本数据转化成特征向量,KMeans聚类算法完成文章分类 。

        TfidfVectorizer考量某词汇在文本出现的频率,还关注包含这个词汇的所有文本的数量,能够削减高频没有意义的词汇出现带来的影响, 挖掘更有意义的特征。

        k均值聚类算法根据特征向量来划分样本,聚类算法为K-means++ 。

        下面是原始的kmean文档分类的代码,结果也符合语境。documents学习的文本特征十分明显,在输出聚类时也分的清晰,预测也准确。

        将上面的代码和笔者的Python分析我的简书文章结合之后,使用机器学习来看看笔者的全部文章。这里需要对以前的字符串文本简单处理,将文章一篇篇的作为字符串append到list列表中。代码托管在:python/my_jianshu_wordcloud_sklearn.py at main · laufei90/python (github.com)

        最后运行结果如下,截取部分分类。笔者的技术文章没有区分的很明显,分类效果也一般,但是隐约可以看到有树莓派、数据通信、linux运维方面的知识 。

    相关文章

      网友评论

          本文标题:机器学习-sklearn分类简书文章

          本文链接:https://www.haomeiwen.com/subject/gbnlaltx.html