上篇中我们用到了一个天气的数据集:

这个数据集由14个样本组成,每个样本有4个有关于天气的属性和一个“class”属性(之后我们需要预测的属性)。
回到上节课的位置

我们可以看到play属性,在柱状图中蓝色表示yes,红色表示no

实际上Weka默认将最后一个属性作为Class Value。

实际上可以用你也可以修改class value。
分类问题

这个分类问题,有的时候我们称为“监督学习”——因为我们的训练集已经已知了Class Value。
现在我们已录入的数据作为已分类的例子,我们希望自动建立一个可用于预测新的实例的模型。这是一个分类的问题。
这个实例有不同的属性值,有一组固定的特性。我们赋予它这个Class value,这样就产生了一个已分类的实例。
这些属性或特性可以是离散(discrete(“nominal”名词性))的或
是连续(continuous(“numeric”数字型))的,就想我们之前的天气数据的属性是离散的, Class Value也可以是离散的或者连续的。在我们之前的例子play,属性值就是yes 或者 no,这个就是离散的Class value,这是一个分类问题,在其他的机器学习问题中,Class vlue可能就是连续,我们可能想要预测一个数字,这种问题在商业领域叫回归问题。
打开一个另一个天气数据集

我们可以看到这个数据集几乎和前一个例子完全一样
打开编辑面板可以看到

temperature和humidity是属性值是连续的(数字性),而之前是名词性的。
我们看一下oulook属性,属性值还是名词性的(离散的),样本的分布还是和上个例子一样。

而temperature,我们无法表达出所有的属性值,因为属性值是连续的(太多了),但我们可以有最大值,最小值,平均值和标准差(这些信息是weka为数字属性提供的)。

我们现在来看一下一个真实的数据集glass数据集。


这个数据集有214个实例,10个属性。
Class默认是Type,我们看一下Type的属性值,可以知道这个数据集中有7种不同的玻璃类型。

而属性对应的是什么呢?
在查看数据时,最好能看看属性是否合理,深入了解要使用的数据是非常重要的。
-
RI:折射率
我们可以观察一下折射率,折射率的最大值,最小值,平均值和标准差,可以查找一下资料就能知道这些值是合理的。
接下来Na,Mg,Al..就是各种化学元素的含量(百分比)。
ARFF文件
我们可以通过观察数据来肯定我们的猜测


以@data打头,接下来都是一行接一行的实例。
每行包括了了所有属性的值,默认的Class Value是最后一个。
现在确认了关于这些连续型的属性值是指百分比。
我们可以思考一下,属性值的合理性是很重要的,例如在这个数据集中,如果元素的百分比出现了负数,这可能意味着这些值出现了错误。负数的百分比是不正常的。
所以,我们在使用数据集之前,可以在Weka中确认一下数据的看起来合理真实。
网友评论