weka-Explorer-Preprocess 的使用

作者: yigoh | 来源:发表于2016-03-17 11:07 被阅读412次

一、 实验目的

了解 weka 中 Explorer 的 Preprocess 相关功能。

二、 实验内容

进入 weka 中 Explorer 界面,打开 data 目录下 weather.numeric.arff 文件,了解 Preprocess 相关功能。

打开 weather.numeric.arff 文件

三、 实验过程

1. 了解 arff 格式

用记事本打开 weather.numeric.arff 文件,

@relation weather

@attribute outlook {sunny,overcast,rainy}
@attribute temperature numeric
@attribute humidity numeric
@attribute windy {TRUE,FALSE}
@attribute play {yes,no}

@data
sunny,85,85,FALSE,no
sunny,80,90,TRUE,no
overcast,83,86,FALSE,yes
rainy,70,96,FALSE,yes
rainy,68,80,FALSE,yes
rainy,65,70,TRUE,no
overcast,64,65,TRUE,yes
sunny,72,95,FALSE,no
sunny,69,70,FALSE,yes
rainy,75,80,FALSE,yes
sunny,75,70,TRUE,yes
overcast,72,90,TRUE,yes
overcast,81,75,FALSE,yes
rainy,71,91,TRUE,no

显而易见,可以知道 arff 格式是这样组织数据的:

  • (唯一)一个 ** @relation ** + 关系名称。
  • 若干 ** @attribute ** + 属性名称 + 属性类型({}中写出枚举类型,以逗号隔开,表示离散型数据; numeric 表示连续型数据;还有 string 和 date 类型,顾名思义,就知道一个是字符串型,一个是日期型)。
  • (唯一)一个 ** @data **占一行,后接若干具体数据(依照上面定义的属性顺序写出采样数据,以逗号隔开)。
  • 另外,网上资料显示,** % ** 为 arff 格式下的注释标记。
2. 了解区域功能
Preprocess 界面

(0) 功能标签:用于数据预处理及针对数据进行的各种处理之间的切换。
(1) 编辑按钮:包括打开各种形式的数据集,生成数据集,撤销,编辑数据集和保存。
(2) 筛选器选择:对数据进行某种变换,比如离散化,二进制化。
(3) 当前信息:显示当前数据集的基本信息,包括关系名,属性个数,实例个数等。
(4) 属性信息:包括所有属性的显示和可以对它们进行的一些操作,比如移除一些无用属性,使数据集更简洁明了。
(5) 选中属性:显示当前选中的属性的摘要信息,比如名称、类型、数值等。
(6) 属性可视化:以直方图的形式显示当前选中属性,给人更直观的感受。
(00) 状态信息: 显示是否在进行数据挖掘,历史记录查看,内存使用信息等。

3. 举例操作
  • 区域(0)和(00),在此实验中(学习 preprocess 的基本操作)基本是用不到的,这里也就不再多说了。

  • 区域(1),前面已经使用过打开 arff 格式数据集功能;至于打开网络资源和数据库内容,现在还不太了解;生成功能,就是根据一定的规则(还不清楚这些规则的意义)生成一些随机数据;而撤销、编辑和保存,跟记事本也差不太多,亦不赘述。

生成数据时用的规则 生成的数据(左至右依次为用 edit 打开,另存为 cvs 格式并用 excel 打开, preprocess 界面打开)
  • 区域(2)中的各个筛选器我还不了解,就做一下归一化(感觉这就是统计里的标准化),并拿 humidity 做一下无监督的离散化(这应该就是画直方图之类的东西时要做的工作吧)好了。
归一化时用的规则 归一化只对连续数据起作用,其结果也是连续的 humidity 原始数据 采用的离散化规则 离散化后的 humidity 数据
  • 区域(3)显示当前数据集的信息,其实就是提取了 ** @relation ** 后面的字符串,统计了 ** @attribute ** 的个数和 ** @data ** 后的行数,没什么可说的。

  • 区域(4)是属性信息栏,可以移除一些无用数据,比如数据的序号、聚类分析时的类别标签;这里试了一下去除 humidity 属性,不过它并非无用信息,所以之后还得用下 undo 。

去除了 humidity 属性
  • 区域(5)用一些统计数据(对于离散和连续数据并不相同)概括地显示了当前选中属性的信息,刚才进行数据离散化时也有涉及。
离散数据,以各类别出现个数方式显示 连续数据,采用两极数值、平均数和标准差显示
  • 区域(6)是可视化区域,以直方图的形式进一步描述数据(和区域(5)相辅相成),给人较为直观的感受(或许利于启发式方法的使用?);在其上的颜色,是以某一属性为目标变量添加的。
以 play 为目标变量时各属性的可视化情况

以上,即为 weka 中 Explorer 的 Preprocess 界面的主要功能。

相关文章

  • weka-Explorer-Preprocess 的使用

    一、 实验目的 了解 weka 中 Explorer 的 Preprocess 相关功能。 二、 实验内容 进入 ...

  • iconfont的使用(下载使用)

    1、下载文件 2、在生命周期中引入项目 beforeCreate () { var domModule = ...

  • Gson的使用--使用注解

    Gson为了简化序列化和反序列化的过程,提供了很多注解,这些注解大致分为三类,我们一一的介绍一下。 自定义字段的名...

  • 记录使用iframe的使用

    默认记录一下----可以说 这是我第一次使用iframe 之前都没有使用过; 使用方式: 自己开发就用了这几个属...

  • with的使用

    下面例子可以具体说明with如何工作: 运行代码,输出如下

  • this的使用

    什么是this? this是一个关键字,这个关键字总是返回一个对象;简单说,就是返回属性或方法“当前”所在的对象。...

  • this的使用

    JS中this调用有几种情况 一:纯粹的函数调用 这是函数的最通常用法,属于全局性调用,因此this就代表全局对象...

  • ==的使用

    积累日常遇到的编码规范,良好的编码习惯,持续更新。。。 日常使用==用于判断的时候,习惯性将比较值写前面,变量写后...

  • this的使用

    1.默认绑定,就是函数立即执行。 函数立即执行就是指向window,但是如果是node环境,就是指向全局conso...

  • %in% 的使用

    写在前面:From 生信技能书向量难点之一:%in% 难点 (1)== 与 %in% 的区别== 强调位置,x和对...

网友评论

    本文标题: weka-Explorer-Preprocess 的使用

    本文链接:https://www.haomeiwen.com/subject/oycclttx.html