RapidMiner(一)

作者: EvanForEver | 来源:发表于2018-05-28 21:32 被阅读489次

RapidMiner,以前叫YALE (Yet Another Learning Environment) 。
RapidMinder提供的实验由大量的算子组成,使用图形化的用户接口可以将这些算子以积木块的方式搭建成系统。
是世界领先的数据挖掘解决方案,在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。

一、数据可视化

各种主要的可视化图例:

  1. Scatter: 散布图
  2. Scatter Matrix: 散布图阵列
  3. Parallel: 平行坐标系
  4. Histogram: 直方图
  5. Histogram Color: 使用类标染色的单属性直方图
  6. Quartile:盒状图
  7. Quartile Color: 使用类标染色的单属性盒状图

二、数据预处理

各种主要的预处理部件:

  1. Aggregate: 聚集
  2. Sample: 抽样
  3. Sample (Stratified): 分层抽样
  4. Principle Component Analysis: 主成份分析
  5. Selection系列: 特征子集选择
  6. Generate Attributes: 特征创建
  7. Fourier Transformation: 傅立叶变换
  8. Discretize by Binning: 等宽离散化
  9. Discretize by Frequency: 等频离散化
  10. Discretize by Entropy: 基于熵的离散化
  11. Normalize: 变量标准化 (Z-transformation, range transformation)

三、预测建模

交叉验证

四、文本分类

文本预处理:文档→向量空间模型

  • 对于英文:
    1、词项抽取: 简单
    2、停用词移除
    3、词干提取
    4、频率统计和计算TF-IDF词权值

  • 对于中文:
    1、词项抽取: 简单
    2、分词
    3、频率统计和计算TF-IDF词权值

  • 停用词移除
    英语中很多经常使用的词在信息检索和文本挖掘中是没有用的 – 这些词称作停用词.
    the, of, and, to, ….典型地有400到500个这样的词
    对于特定应用, 可以构造一个附加的领域依赖的停用词表.
    为什么需要移除停用词?
    1、减少索引 (或数据) 文件的大小:停用词占20-30%的总词量.
    2、提高效率和有效性:停用词对于搜索或文本挖掘是没有用的;停用词还可能迷惑检索系统.

  • 词干提取
    词干提取是简化单词的技术, 用于将单词变成它们的词根或词干. 比如,
    词干use:nuser、nusers、nused、nusing
    词干engineer:engineering、engineered、engineer
    用处:
    1、提高信息检索和文本挖掘的有效性:匹配相似的单词;主要提高查全率
    2、减少索引的大小:合并相同词干的单词可以将索引大小减少到40-50%.

  • 基本的词干提取方法
    使用一组规则. 比如,
     移除词尾
    若单词以一个不是s的辅音字母再跟s结尾, 则删除s.
    若单词以es结尾, 则去掉s.
    若单词以ing结尾, 则除非余下部分仅有一个字母或者是th, 否则删除ing.
    若单词以ed结尾, 并且ed前面是一个辅音字母, 则除非仅剩下一个字母, 否则删除ed.
    …...
     变换单词
    若单词以ies而不是eies或aies结尾, 则将ies改成y.

  • 频率统计 + TF-IDF
    1、统计文档中某个单词出现的总次数.
    使用出现次数表示单词在文档中的相对重要性.
    若单词在文档中经常出现, 则文档很可能阐述的是关联于该单词的主题.
    2、统计在文档集中包含某个单词的文档数目.
    若单词出现在数据集的很多文档中, 则它可能并不是很重要, 或者说没有区别度.
    3、然后计算TF-IDF, 将文档转换成向量空间模型.

向量空间模型

TF-IDF词权值表

TF-IDF词权的计算例子

五、文本分类模型

建立文本分类模型,并使用外部数据集评估

建立文本分类模型交叉验证评估并保存模型

应用保存的模型进行新闻归类

相关文章

  • RapidMiner(一)

    RapidMiner,以前叫YALE (Yet Another Learning Environment) 。Ra...

  • RapidMiner(二)

    六、中文网页分类 建立中文网页分类模型并采用交叉验证评估 七、中文网页聚类 对中文网页聚类并进行外部指标评估 部件...

  • 使用 RapidMiner 参加 Kaggle Titanic

    要准备 Data Mining 这门课的期中考发表,本来决定用 Python 代码来解决 Titanic 的预测,...

  • 对于RapidMiner的个人看法

    之前看了学习了一下RapidMiner 不得不说 这东西对于数据挖掘入门.确实是个好case。 但是目前都是收费版...

  • 六款强大的开源数据挖掘工具

    为您推荐六款强大的开源数据挖掘工具: 1、RapidMiner 该工具是用Java语言编写的,通过基于模板的框架提...

  • rapidminer进行关联分析、分类预测、聚类分析

    商品交叉销售关联分析 Step1:检查数据缺失值、异常值 Step2:约减数据集中属性 Step3:FP-Grow...

  • 。一一,一,一,一。

    一,、

  • 一 一

    2018年6月22日 星期五 雨 一水一万物 一星一宇宙 一字一文章 一书一世界 一读一微笑 一赞一知音

  • 一 一

    杨德昌《一 一》,早年曾看过一遍。 婷婷短发,白净,蓝色衬衫,学生裙,黑皮鞋,白袜子,学习很好的中学女生。温柔,懂...

  • 一 一

    给自己无处安放的灵魂找到了家!简书,我的新写作时光!继续,在流年里拾荒,禅落一身的光!

网友评论

    本文标题:RapidMiner(一)

    本文链接:https://www.haomeiwen.com/subject/jxvijftx.html