美文网首页
unit3 文本聚类

unit3 文本聚类

作者: 巴拉巴拉_9515 | 来源:发表于2018-05-11 16:14 被阅读0次

《集体智慧编程》第三单元“发现群组”主要亮点是文本的聚类。故针对第三单元的博客文本聚类做记录。

1、数据对象

通过读取每个博客的词汇,统计词频,形成如下单词表作为本次文本聚类的数据资料。第一列为所有博客名称,第一行为博客中出现的词汇,中间数值表示某个博客出现该词汇的次数。

2、分级聚类

分级聚类通过连续不断地将最为相似的群组两两合并,来构造出一个群组的层级结构。
每个群组都是从单一元素开始的。在每次迭代的过程中,分级聚类算法会计算每两个群组间的距离,并将距离最近的两个群组合并成一个新的群组。这一过程会一直重复下去,直至只剩一个群组为止。

【相似度定义】元素的相似度由相对位置体现,距离越近越相似。
【缺点】计算量太大,必须计算每两个配对项之间的关系,并且在合并之后还需要重新计算新距离,在处理大规模的数据集时,该算法的运行速度会非常缓慢。

考虑分级聚类的实质,在实际运行中我只处理了部分博客数据,产生的聚类划分结果如下所示:

3、K均值聚类

  • 首先随机确定K个中心位置。(需实现确定要划分的类别数量)
  • 然后将各个数据项分配给最邻近的中心点。分配完成后,重新安置中心点,中心点设置为群内元素中心位置。
  • 进入第二轮循环,最邻近划分--->重新安置中心点---->
  • 循环······

【要求】预先告诉算法希望生成的聚类数量.
【缺点】由于初始中心的随机选取,每次聚类结果是不一样的
【优点】算法执行速度更快

对部分博客数据进行k均值聚类,当划分为5类博客时,划分结果如下所示:

4、实际结合

相关文章

  • unit3 文本聚类

    《集体智慧编程》第三单元“发现群组”主要亮点是文本的聚类。故针对第三单元的博客文本聚类做记录。 1、数据对象 通过...

  • 2018-12-19

    文本聚类算法之K-means算法的python实现 一、文本聚类定义 文本聚类主要是依据著名的聚类假设:同类...

  • pyhanlp文本聚类详细介绍

    文本聚类 文本聚类简单点的来说就是将文本视作一个样本,在其上面进行聚类操作。但是与我们机器学习中常用的聚类操作不同...

  • 文本聚类

    背景介绍 由于项目需要,需要对旅游游记文本进行聚类,为打标签做指导,所以调研了主流的短文本聚类方法,文本聚类主要还...

  • 文本聚类

    文本聚类 import numpy as npimport pandas as pdfrom sklearn.fe...

  • 文本聚类

    作者:HaigLeehttps://www.jianshu.com/u/67ec21fb270d本文由 HaigL...

  • 文本聚类

    最近朋友面试有被问到文本聚类问题,总结如下: 聚类分析,又称群分析,它是研究(样品或指标)分类问题的一种统计分析方...

  • 第8课:动手实战基于 ML 的中文短文本聚类

    关于文本聚类,我曾在 Chat《NLP 中文文本聚类之无监督学习》中介绍过,文本聚类是将一个个文档由原有的自然语言...

  • NLP之文本聚类

    一 文本聚类简介 1.1、定义 文本聚类主要是依据著名的聚类假设:同类的文档相似度较大,而不同类的文档相似度较小。...

  • 111-文本分析之基于文本相似度的聚类

    参考:《文本数据挖掘》 1、相似度计算 2、 聚类方法 划分聚类法:k-means聚类法、k-medoids聚类法...

网友评论

      本文标题:unit3 文本聚类

      本文链接:https://www.haomeiwen.com/subject/moifdftx.html