机器学习方法的基本知识表达形式是以决策树或者规则来展现,知识是用来描绘由机器学习方法产生的结构。
表
采用与输入方式相同的形式-表,建立决策表或者回归表。
线性模型
输出为各属性的加权总和,若输入和输出属性都是数值型,通常用线性回归模型来刻画机器学习。
树
决策树:从独立实例学习的“分治”方法。
如果决策树上属性是名目类型,则这个节点下的分支个数即为名目个数。如果决策树上属性是数值类型,则通常测试这个节点上的数值是否大于或者小于某个定义的量,通常数值类型的决策树称为回归树。
规则
规则是一种受欢迎的取代决策树的方法。规则的前件给出一系列的测试,规则的后件给出适合于该规则所覆盖实例的一个或多个分类。
1.分类规则
规则是容易处理的,每条规则被当作一个新的、独立的信息块操作。
2.关联规则
一些规则隐含另一些规则,当多条规则相互关联时,需要减少规则的数目,通常选取最重要的一条规则代替多条关联的规则。
3.包含例外的规则
某些定义的规则可能不适用于所有的实例,需要新定义例外的规则来修正这些特殊的实例。
4.表达能力更强的规则
当实例数量过多时,某些规则可能能够在给出的一部分实例中很好的运行,但它们不是最好的方案,此时引入基于实例的规则,更好的将规则与实例相结合,从而给出较优良的方案。
基于实例的表达
最简单的学习形式即是死记硬背,知识保存所有实例的信息,这是基于实例的学习。因此基于实例的学习是懒惰的,学习机总是尽可能学习到最多的样本,导致延缓实质性的工作。如最近的k邻居分类方法,这是利用实例的所有属性欧式距离,来寻得最小距离分类。基于所有实例的学习往往比人工的直觉学习更有效。
网友评论