Weka在数据挖掘中的运用 03 Exploring datas

Weka在数据挖掘中的运用 03 Exploring datas

作者: jenye_ | 来源:发表于2020-09-25 11:07 被阅读0次

Weka在数据挖掘中的运用 03 Exploring datas
Weka在数据挖掘中的运用 01 绪论
[WEKA] 1 概览
Weka在数据挖掘中的运用 02 Getting Started
Weka在数据挖掘中的运用 04 Buiding a class
Weka在数据挖掘中的运用 05 Using a filter
Weka在数据挖掘中的运用 06 Visualizing you
数据挖掘和机器学习在资本市场数据监测中的运用
weka3.8导入libsvm
Weka进行数据挖掘

上篇中我们用到了一个天气的数据集：

这个数据集由14个样本组成，每个样本有4个有关于天气的属性和一个“class”属性（之后我们需要预测的属性）。

回到上节课的位置

image.png

我们可以看到play属性，在柱状图中蓝色表示yes，红色表示no

实际上Weka默认将最后一个属性作为Class Value。

实际上可以用你也可以修改class value。

分类问题

这个分类问题，有的时候我们称为“监督学习”——因为我们的训练集已经已知了Class Value。
现在我们已录入的数据作为已分类的例子，我们希望自动建立一个可用于预测新的实例的模型。这是一个分类的问题。

这个实例有不同的属性值，有一组固定的特性。我们赋予它这个Class value，这样就产生了一个已分类的实例。
这些属性或特性可以是离散（discrete（“nominal”名词性））的或
是连续（continuous（“numeric”数字型））的，就想我们之前的天气数据的属性是离散的， Class Value也可以是离散的或者连续的。在我们之前的例子play，属性值就是yes 或者 no，这个就是离散的Class value，这是一个分类问题，在其他的机器学习问题中，Class vlue可能就是连续，我们可能想要预测一个数字，这种问题在商业领域叫回归问题。

打开一个另一个天气数据集

我们可以看到这个数据集几乎和前一个例子完全一样
打开编辑面板可以看到

temperature和humidity是属性值是连续的（数字性），而之前是名词性的。
我们看一下oulook属性，属性值还是名词性的（离散的），样本的分布还是和上个例子一样。

而temperature，我们无法表达出所有的属性值，因为属性值是连续的（太多了），但我们可以有最大值，最小值，平均值和标准差（这些信息是weka为数字属性提供的）。

temperature .

我们现在来看一下一个真实的数据集glass数据集。

这个数据集有214个实例，10个属性。
Class默认是Type，我们看一下Type的属性值，可以知道这个数据集中有7种不同的玻璃类型。

而属性对应的是什么呢？

在查看数据时，最好能看看属性是否合理，深入了解要使用的数据是非常重要的。

RI：折射率

我们可以观察一下折射率，折射率的最大值，最小值，平均值和标准差，可以查找一下资料就能知道这些值是合理的。
接下来Na，Mg，Al..就是各种化学元素的含量（百分比）。

ARFF文件

我们可以通过观察数据来肯定我们的猜测

以@data打头，接下来都是一行接一行的实例。
每行包括了了所有属性的值，默认的Class Value是最后一个。

现在确认了关于这些连续型的属性值是指百分比。
我们可以思考一下，属性值的合理性是很重要的，例如在这个数据集中，如果元素的百分比出现了负数，这可能意味着这些值出现了错误。负数的百分比是不正常的。

所以，我们在使用数据集之前，可以在Weka中确认一下数据的看起来合理真实。

相关文章

Weka在数据挖掘中的运用 03 Exploring datas
上篇中我们用到了一个天气的数据集：这个数据集由14个样本组成，每个样本有4个有关于天气的属性和一个“class”...
Weka在数据挖掘中的运用 01 绪论
引例假如你正在商店购物，收音机记录下了你买的每一件东西，然后柜员说办vip能够有折扣，你提供了姓名和住址。超市间...
[WEKA] 1 概览
A LITTLE BIT OF EVERYTHING 什么是数据挖掘？什么是Weka？数据挖掘是一门成熟的技术，...
Weka在数据挖掘中的运用 02 Getting Started
Weka的发音不是Weaker 安装Weka 研究“Explorer”接口研究一些数据集创建一个分类器解释输...
Weka在数据挖掘中的运用 04 Buiding a class
使用J48来分析数据集打开文件 glass,arff 检查可用的分类器选择J48决策树学习器运行审查输出 ...
Weka在数据挖掘中的运用 05 Using a filter
删除一个属性现在我们要移除humidity这个属性（序号为3）.在预处理面板可以选择Filter（过滤器）监督...
Weka在数据挖掘中的运用 06 Visualizing you
利用可视化全面了解你的数据。使用iris数据集可视化面板中的抖动功能只是将人工随机噪声添加到绘制点的坐标中,以...
数据挖掘和机器学习在资本市场数据监测中的运用
数据挖掘和机器学习在资本市场数据监测中的运用数据挖掘基本定义从技术上来看，数据挖掘（Data Mining,...
weka3.8导入libsvm
由于最近使用weka3.8，需要用到svm算法挖掘数据，但是因为weka3.8本身不具备svm算法，就需要将相关的...
Weka进行数据挖掘
//weka_百度百科http://baike.baidu.com/link?url=gJT4GJ6VGevrA_...

网友评论

本文标题：Weka在数据挖掘中的运用 03 Exploring datas

本文链接：https://www.haomeiwen.com/subject/jjdxuktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|Weka在数据挖掘中的运用 03 Exploring datas|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！