美文网首页机器学习与数据挖掘大数据玩转大数据
学习Rost-CM内容挖掘系统的分词工具

学习Rost-CM内容挖掘系统的分词工具

作者: 华天清 | 来源:发表于2018-05-25 11:21 被阅读5次

GooSeeker开发团队成发的在线的分词工具软件,要做到“文科生能用的分词软件”,比如,公共管理专业、社会学各专业、工商行政管理各专业、营销管理各专业等等。“文科生”没有任何褒贬含义,其实我们GooSeeker团队的分析师也大部分都是“文科生”,因为他们可以免受技术思路的束缚,直接看到业务层面的问题和解答,在商业分析和智慧城市大数据管理等领域执行各种研究工作的策划、顶层设计和管理。

基于以上目标,总路线是采用在线云服务,重点解决以下几个问题:

  1. 下载到本地安装的软件万一有病毒或者木马怎么办?即使官方发布的软件不会含有病毒,但是从别的软件下载网站下载的版本就是一个不得不考虑的问题
  2. 最新的软件功能是否能及时用上?下载到本地安装的软件,这也是一个痛点问题,所以,我们要采用云的方式,除了能第一时间把新功能交给用户以外,还可以第一时间用上最新的自然语言处理(NLP)、中文信息处理和文本挖掘技术和产品。比如,在云服务的架构下,可以随时采用更加先进的中文分词技术,毕竟这些基础技术都需要采用第三方的业界领先的产品。
  3. 产品和服务是否一直持续提供?技术在发展,用户需求在变化,一个好的产品一定是一个持续服务的产品,比如,软件功能升级、用户问题解答。
  4. 导入的文档可以是pdf,word,txt,excel,输出都是excel,excel是分析师的最爱。

基于以上考虑,在持续的产品发展过程中,GooSeeker研发团队参考了大量的分词和文本挖掘软件。如果讲技术或者面向工程师,应该去研究BAT们发布的NLP云服务,毫无疑问十分强大。然而,面对“文科生”和各专业写论文的学生,而且想快速帮助他/她完成分析任务,还是应该放眼那些便捷软件工具为好。

这个系列文章,我们重点剖析Rost-CM内容挖掘系统,只有吸取先进养分,才能做得更加卓越。

1,Rost-CM的功能界面

Rost CM发展了多个版本,下面是我最熟悉和使用最多的版本4.0.0

还有5.8.0

从界面和菜单就能看出,这是一个功能丰富的软件,围绕着内容挖掘(Content Mining)集成了很多功能模块。先重点关注以下两个功能(节选自V6版本的ROST用户手册):

(1)分词
点击功能性分析下拉列表框中的分词选项,打开分词窗口,在待处理文本框中载入待处理文件,如“虚拟学习团队2010‐8‐7.txt”,则系统按照程序目录下的User 目录下的User.txt 文档,自动在输出文件框中生成“虚拟学习团队2010‐8‐7_分词后.txt”文件,获得以空格分离的分词后文档,如果原来文档中有空格的位置保留空格。点击确定按钮,即可打开该文档。
如果需要自己增加一些词,则点击工具下拉列表框中的自定义文件→分词自定义词表,系统将自动在记事本中打开user 目录下的user.txt 文件,编辑后点击保存存盘,再次重新启动本软件,方可生效。

(2)字频分析
点击功能性分析下拉列表框中的字频分析选项,打开字频分析窗口, 在待处理文件框中载入待处理文件, 如“ 虚拟学习团队2010‐8‐7.txt”,则系统自动在输出文件框中生成“虚拟学习团队2010‐8‐7_字频.txt”文件,点击确定按钮,即可打开该文档。
这是两个最重要的功能,大部分基于分词的研究任务或者作业基本上用这两个功能就够了,得到了分词结果,可以做各种统计,最可能做的可视化操作是画一个词云。后续的这些数据分析和可视化操作,可以在其他专用软件上做,很灵活。所以,暂且放下其他功能不去深究,先看看我对产品的规划。

2,文科生都能用的分词工具

上面已经说过,最常用的功能就是 分词和词频 统计,能否做到导入要分析的内容就能导出需要的结果?是的,不需要将分词和词频分析分成两个步骤。

导入以后,就能看到原始数据和分词好的数据,也能看到按照词频排序的词语,这时候可以不做多余的操作,只导出就行了,会将四张表打包在一起:

  • 分词效果表:一行原始内容对应一行经过分词的内容
  • 打标结果表:如果筛选了词语,就有这种表,把每条原始内容含有的词语罗列出来
  • 切词表:就是通常所说的词频表
  • 选词结果表:跟切词表一样的结构,但是只有筛选过的词,如下图,很多高词频的词是无助于分析的,甚至会干扰分析结果

既然分词和词频统计这么简单,为什么非要坐到电脑前做这件事情呢?如果要分词的文件是通过微信收到的,如果分词结果要通过微信发送出去,如果结果文件要在PC和手机间传递,都只需扫一次二维码即可,这就是微信小程序——分词作业帮 的用处。

3,写作规划

接下来,我将用多篇文章,引导读者深入体验多个分词工具的功能特性。

相关文章

  • 学习Rost-CM内容挖掘系统的分词工具

    GooSeeker开发团队成发的在线的分词工具软件,要做到“文科生能用的分词软件”,比如,公共管理专业、社会学各专...

  • 分词练习1——分词工具包

    关于分词工具包的体验:分词练习2——分词体验 现有的分词工具包 (1)NLPIR NLPIR汉语分词系统,又名IC...

  • 机器学习笔记-文本分类(二)jieba分词

    分词就是词语切分了,关于分词的理论实现,以后再继续学习。此处用python的jieba分词工具直接分词。 jieb...

  • 分词处理

    1.文本挖掘的分词原理 在做文本挖掘的时候,首先要做的预处理就是分词。英文单词天然有空格隔开容易按照空格分词,但是...

  • 爬取百度百科5A景点摘要并实现分词

    一、编程环境 操作系统:Win 10语言:Python 3.6分词工具:结巴分词 二、程序目录 这里baike_s...

  • 常用分词工具使用教程

    常用分词工具使用教程 以下分词工具均能在Python环境中直接调用(排名不分先后)。 jieba(结巴分词) 免费...

  • Java利用hanlp完成语句相似度分析的案例详解

    分享一篇hanlp分词工具使用的小案例,即利用hanlp分词工具分析两个中文语句的相似度的案例。供大家一起学习参考...

  • jieba 源码解析

    阅读动机 jieba分词是Python 里面几个比较流行的中文分词工具之一。为了理解分词工具的工作原理,以及实现细...

  • Python中的jieba 源码解析

    前言 jieba分词是Python 里面几个比较流行的中文分词工具之一。为了理解分词工具的工作原理,以及实现细节对...

  • 常用Python中文分词工具

    1. jieba 分词 “结巴” 分词,GitHub 最受欢迎的分词工具,立志做最好的 Python 中文分词组件...

网友评论

    本文标题:学习Rost-CM内容挖掘系统的分词工具

    本文链接:https://www.haomeiwen.com/subject/zppyjftx.html