美文网首页
利用weka对中文文本聚类

利用weka对中文文本聚类

作者: 因为碰见了卖西瓜的 | 来源:发表于2018-09-20 11:45 被阅读192次

1.数据预处理

(docx格式转换为txt、命名更改)

源数据为42个word文档,批量转换为txt,转换方法见:https://www.jianshu.com/p/17943871c9f6。

将所有文件按数字(学号最后1或2位)进行命名,比如1.txt、2.txt,方便后面做分词。将所有txt文件保存在一个文件夹中,如命名为“原始数据”。

2. 中文分词

由于weka没有自带的中文分词包,因此我们分词后再导入到weka。

利用jieba分词工具,代码下载链接:https://pan.baidu.com/s/1Fde1W2pjippU6gcQZDWv8Q 密码:efx5

分词源码

注意更改“原始数据”的路径和分词结果的路径、停用词表、文档数量。

分词结果

3.待分析文本准备

weka支持csv格式数据,我们将所有分词结果存入到csv文件中,第一列为姓名,第二列为分词结果,格式如下:

csv数据示例

另外需要注意的是,直接导入中文会乱码,需要修改csv和weka的编码方式,我们采用UTF-8编码。

csv修改编码的方式为:excel另存为——工具——web选项——编码——UTF-8:

weka修改编码的方式为,在weka的安装目录下,用记事本(或notepad++)打开RunWeka.ini文件,将其中的fileEncoding改为UTF-8

weka修改编码方式

4.weka导入数据

进入explorer页面

Filter——unsupervised——attribute

配置簇的数量

相关文章

  • 利用weka对中文文本聚类

    1.数据预处理 (docx格式转换为txt、命名更改) 源数据为42个word文档,批量转换为txt,转换方法见:...

  • 第8课:动手实战基于 ML 的中文短文本聚类

    关于文本聚类,我曾在 Chat《NLP 中文文本聚类之无监督学习》中介绍过,文本聚类是将一个个文档由原有的自然语言...

  • 2018-05-04 python实现brich文本层次聚类

    利用brich实现文本层次聚类,将文本内容分类 将相似的文本进行聚类 然后选出同类中最具有代表的一条数据输入数据:...

  • 2018-12-19

    文本聚类算法之K-means算法的python实现 一、文本聚类定义 文本聚类主要是依据著名的聚类假设:同类...

  • RapidMiner(二)

    六、中文网页分类 建立中文网页分类模型并采用交叉验证评估 七、中文网页聚类 对中文网页聚类并进行外部指标评估 部件...

  • pyhanlp文本聚类详细介绍

    文本聚类 文本聚类简单点的来说就是将文本视作一个样本,在其上面进行聚类操作。但是与我们机器学习中常用的聚类操作不同...

  • 文本聚类

    背景介绍 由于项目需要,需要对旅游游记文本进行聚类,为打标签做指导,所以调研了主流的短文本聚类方法,文本聚类主要还...

  • 文本聚类

    文本聚类 import numpy as npimport pandas as pdfrom sklearn.fe...

  • 文本聚类

    作者:HaigLeehttps://www.jianshu.com/u/67ec21fb270d本文由 HaigL...

  • 文本聚类

    最近朋友面试有被问到文本聚类问题,总结如下: 聚类分析,又称群分析,它是研究(样品或指标)分类问题的一种统计分析方...

网友评论

      本文标题:利用weka对中文文本聚类

      本文链接:https://www.haomeiwen.com/subject/tbjgnftx.html