利用weka对中文文本聚类

利用weka对中文文本聚类

作者: 因为碰见了卖西瓜的 | 来源:发表于2018-09-20 11:45 被阅读192次

利用weka对中文文本聚类
第8课：动手实战基于 ML 的中文短文本聚类
2018-05-04 python实现brich文本层次聚类
2018-12-19
RapidMiner（二）
pyhanlp文本聚类详细介绍
文本聚类
文本聚类
文本聚类
文本聚类

1.数据预处理

（docx格式转换为txt、命名更改）

源数据为42个word文档，批量转换为txt，转换方法见：https://www.jianshu.com/p/17943871c9f6。

将所有文件按数字（学号最后1或2位）进行命名，比如1.txt、2.txt，方便后面做分词。将所有txt文件保存在一个文件夹中，如命名为“原始数据”。

2. 中文分词

由于weka没有自带的中文分词包，因此我们分词后再导入到weka。

利用jieba分词工具，代码下载链接：https://pan.baidu.com/s/1Fde1W2pjippU6gcQZDWv8Q 密码：efx5

分词源码

注意更改“原始数据”的路径和分词结果的路径、停用词表、文档数量。

分词结果

3.待分析文本准备

weka支持csv格式数据，我们将所有分词结果存入到csv文件中，第一列为姓名，第二列为分词结果，格式如下：

csv数据示例

另外需要注意的是，直接导入中文会乱码，需要修改csv和weka的编码方式，我们采用UTF-8编码。

csv修改编码的方式为：excel另存为——工具——web选项——编码——UTF-8：

weka修改编码的方式为，在weka的安装目录下，用记事本（或notepad++）打开RunWeka.ini文件，将其中的fileEncoding改为UTF-8

weka修改编码方式

4.weka导入数据

进入explorer页面

Filter——unsupervised——attribute

配置簇的数量

相关文章

利用weka对中文文本聚类
1.数据预处理（docx格式转换为txt、命名更改）源数据为42个word文档，批量转换为txt，转换方法见：...
第8课：动手实战基于 ML 的中文短文本聚类
关于文本聚类，我曾在 Chat《NLP 中文文本聚类之无监督学习》中介绍过，文本聚类是将一个个文档由原有的自然语言...
2018-05-04 python实现brich文本层次聚类
利用brich实现文本层次聚类,将文本内容分类将相似的文本进行聚类然后选出同类中最具有代表的一条数据输入数据：...
2018-12-19
文本聚类算法之K-means算法的python实现一、文本聚类定义文本聚类主要是依据著名的聚类假设：同类...
RapidMiner（二）
六、中文网页分类建立中文网页分类模型并采用交叉验证评估七、中文网页聚类对中文网页聚类并进行外部指标评估部件...
pyhanlp文本聚类详细介绍
文本聚类文本聚类简单点的来说就是将文本视作一个样本，在其上面进行聚类操作。但是与我们机器学习中常用的聚类操作不同...
文本聚类
背景介绍由于项目需要，需要对旅游游记文本进行聚类，为打标签做指导，所以调研了主流的短文本聚类方法，文本聚类主要还...
文本聚类
文本聚类 import numpy as npimport pandas as pdfrom sklearn.fe...
文本聚类
作者：HaigLeehttps://www.jianshu.com/u/67ec21fb270d本文由 HaigL...
文本聚类
最近朋友面试有被问到文本聚类问题，总结如下：聚类分析，又称群分析，它是研究（样品或指标）分类问题的一种统计分析方...

网友评论

本文标题：利用weka对中文文本聚类

本文链接：https://www.haomeiwen.com/subject/tbjgnftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|利用weka对中文文本聚类|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！