对于机器学习方案如何运作,主要包括输入、输出、算法、以及评价。本文主要介绍机器学习方案的输入等概念。
概念
一个具体研究的对象,或者能被学习的事物,是我们可以取发现的、可以探讨的、并且具有可操作性。
实例
实例即学习的样本,学习的信息集,有关实例的背景知识等。
属性
每个实例由测量实例不同的方面的属性值所定,属性值存在许多不同类型。
ARFF格式文件-标准的数据集表示方式
一个典型的ARFF格式如下:
@relation weather
@attribute attr1(A,B,C) %枚举类型
@attribute attr2 numeric %数值类型
@data
%3 instances
A,3
B,2
C,5
属性类型
属性有两种基本类型:名目值和数量值。名目值可以理解为枚举类型,如天气属性有(sunny、rainy、cloudy),数量值有整数、浮点数等等。
网友评论