1.专业术语
在机器学习中,先要有数据,在机器学习(周志华)这本书中,经典例子不外乎西瓜。所以这里西瓜的数据 就是一个数据集,例如:(色泽=青绿;根蒂=蜷缩;敲声=清脆)、(色泽=乌黑;根蒂=硬挺;敲声=清脆)、··· ···、每对括号内是一条记录。
预测任务是希望通过对训练集{(x1,y1),(x2,y2),``` ```,(xm,ym)}进行学习,建立一个输入空间X到输出空间y的映射f:x->y.
数据集(data set):记录数据的集合,称为数据集。在西瓜这个例子中,所有括号内的数据集合在一起记录了西瓜的好坏,这个集合,就是一个数据集
特征(feature):反映事件某对象在某方面的表现或性质的事项。例如“色泽”、"敲声"等,色泽反映了西瓜的颜色,敲声反映了西瓜的敲击声音。
属性(feature value): 特征的取值,例如“青绿色“、"乌黑"等,其表示西瓜的色泽为青绿色或乌黑等颜色。
样本空间(sample space):特征张成的空间。例如:色泽、根蒂、敲声,我们可以作为三个坐标轴。将他们张成描述西瓜的三维空间。
特征向量(feature vector):在特征空间中,空间内每一个点对应一个坐标向量,所以每个示例也可以称为成为“特征向量”。
分类:预测离散值:"好瓜"、“坏瓜”。基于离散值的学习任务称为“分类’
回归:预测连续值:西瓜的熟透度:0.95、0.37等,此类学习任务称为“回归” y= R,R为实数集
二分类:涉及两个类别的任务。统称有一个正类和反类。y={-1,1}或{0,1};
多类:涉及多个类别的任务。|y|>2
泛化:表示模型适用于新样本的能力。
聚类:对一些未知的属性进行训练。例如将训练集中的西瓜分成若干个组,每个组称为一个“簇”。自动形成的“簇”对应一些潜在的概念。
监督学习(LDA)和无监督学习(PCA):对属性完全知晓的为监督学习(即有标记的样本 labeled sample,已知其相应的类别),回归和分类为其代表;而潜在未知属性值的学习任务则为无监督学习(是实现没有有标记的、已经分类好的样本,需要我们直接对输入数据集进行建模),聚类则为其代表。
在监督学习和无监督学习中,还有一种新的概念,半监督学习,是综合了以上两个学习模型创造出来的新模型,在半监督学习中,会有两个样本集,一个有标记,一个没有标记。综合利用有类标的样本( labeled sample)和没有类标的样本( unlabeled sample),来生成合适的分类函数。
2.假设空间:
归纳:从特殊到一般的“泛化”过程。演绎:一般到特殊的“特化”过程。在这里机器学习使用的大都是“归纳”所以我们可以将训练过程称为“归纳学习”。
在西瓜的样本中,我们使用了个归纳学习中的狭义的归纳学习,狭义的归纳学习则要求训练数据中学的概念,而概念中最基本的是布尔概念学习。则对结果用0,1表示。
一个样本的特征值会有多种,但并不是所有特征值都会对结果有所影响,而且不同的特征配合起来,也会有不同的结果,所以在样本空间中,我们可以假设多种结果。在西瓜这个示例中我们假设了多种不同的特征值对结果的影响如图1.1:
![](https://img.haomeiwen.com/i9137004/e84837940601c8d1.png)
这些结果的假设,我们称为假设空间。
3.归纳偏好:
通过学习得到的模型对应空间中的一个假设,但这会出现一个问题,那就是不同的假输出的结果对训练集是一样的,可是当对应新的模型时,有可能会出现不一样的输出。例如(色泽=青绿;根蒂=蜷缩;敲声=沉闷)这个记录。当采用“好过<->(色泽=*)Λ(根蒂=蜷缩)Λ(敲声=*)”,结果会是好瓜,但当用其他假设呢?
所以在这个问题上,我们可以使用“奥卡姆剃刀”原则,越简单越好。则在机器学习算法中对应的是“最平滑”的最好,所以有一个这里出现了一个新的专业术语“拟合”度,当算法得出的结果曲线越平滑时,我们可以认为它“拟合”好,我们即选用这个算法,当最终结果图过于弯曲,我们可以认为它“过拟合”,过拟合的算法泛化能力也会相对较弱,所以一般情况下不会选中。如下图1.3:
![](https://img.haomeiwen.com/i9137004/478609efbb02ec0e.png)
很明显,B线段弯曲程度较大,变化也会较大,很明显出现了过拟合的情况,所以这种情况下,我们会选用A线段的算法。<br />
但并不是说明所有样本都是和奥卡姆剃刀原则,因为任何事情也会出现特殊情况,会有误差的出现,所以并没有算法是万能的,NFL定理告诉我们:任何算法脱离了具体问题都毫无意义,所以算法必须针对具体问题来选择,我们要尽量考虑到所有潜在的因子。
NDL定理:指在机器学习中,没有给定具体问题的情况下,或者说面对的是所有问题的情况下,没有一种算法能说得上比另一种算法好。换成我们的俗话讲,就是“不存在放之四海而皆准的方法”。只有在给定某一问题,比如说给“用特定数据集给西瓜进行分类”,才能分析并指出某一算法比另一算法好。这就要求我们具体问题具体分析,而不能指望找到某个算法后,就一直指望着这个“万能”的算法。作者:andyham链接:https://www.jianshu.com/p/43ef45d42f32來源:简书简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。
网友评论