美文网首页
Weka在数据挖掘中的运用 03 Exploring datas

Weka在数据挖掘中的运用 03 Exploring datas

作者: jenye_ | 来源:发表于2020-09-25 11:07 被阅读0次

上篇中我们用到了一个天气的数据集:



这个数据集由14个样本组成,每个样本有4个有关于天气的属性和一个“class”属性(之后我们需要预测的属性)。


回到上节课的位置


image.png

我们可以看到play属性,在柱状图中蓝色表示yes,红色表示no



实际上Weka默认将最后一个属性作为Class Value。

实际上可以用你也可以修改class value。


分类问题

这个分类问题,有的时候我们称为“监督学习”——因为我们的训练集已经已知了Class Value。
现在我们已录入的数据作为已分类的例子,我们希望自动建立一个可用于预测的实例的模型。这是一个分类的问题。

这个实例有不同的属性值,有一组固定的特性。我们赋予它这个Class value,这样就产生了一个已分类的实例。
这些属性或特性可以是离散(discrete(“nominal”名词性))的或
是连续(continuous(“numeric”数字型))的,就想我们之前的天气数据的属性是离散的, Class Value也可以是离散的或者连续的。在我们之前的例子play,属性值就是yes 或者 no,这个就是离散的Class value,这是一个分类问题,在其他的机器学习问题中,Class vlue可能就是连续,我们可能想要预测一个数字,这种问题在商业领域叫回归问题


打开一个另一个天气数据集



我们可以看到这个数据集几乎和前一个例子完全一样
打开编辑面板可以看到



temperature和humidity是属性值是连续的(数字性),而之前是名词性的。
我们看一下oulook属性,属性值还是名词性的(离散的),样本的分布还是和上个例子一样。

而temperature,我们无法表达出所有的属性值,因为属性值是连续的(太多了),但我们可以有最大值,最小值,平均值和标准差(这些信息是weka为数字属性提供的)。


temperature .

我们现在来看一下一个真实的数据集glass数据集。




这个数据集有214个实例,10个属性。
Class默认是Type,我们看一下Type的属性值,可以知道这个数据集中有7种不同的玻璃类型。



而属性对应的是什么呢?

在查看数据时,最好能看看属性是否合理,深入了解要使用的数据是非常重要的。

  • RI:折射率



    我们可以观察一下折射率,折射率的最大值,最小值,平均值和标准差,可以查找一下资料就能知道这些值是合理的。
    接下来Na,Mg,Al..就是各种化学元素的含量(百分比)。

ARFF文件

我们可以通过观察数据来肯定我们的猜测


以@data打头,接下来都是一行接一行的实例。
每行包括了了所有属性的值,默认的Class Value是最后一个。

现在确认了关于这些连续型的属性值是指百分比。
我们可以思考一下,属性值的合理性是很重要的,例如在这个数据集中,如果元素的百分比出现了负数,这可能意味着这些值出现了错误。负数的百分比是不正常的。

所以,我们在使用数据集之前,可以在Weka中确认一下数据的看起来合理真实。

相关文章

网友评论

      本文标题:Weka在数据挖掘中的运用 03 Exploring datas

      本文链接:https://www.haomeiwen.com/subject/jjdxuktx.html