美文网首页
机器学习(周志华) -- 第一章总结

机器学习(周志华) -- 第一章总结

作者: DouMarK | 来源:发表于2018-07-06 13:15 被阅读94次

1.专业术语

    在机器学习中,先要有数据,在机器学习(周志华)这本书中,经典例子不外乎西瓜。所以这里西瓜的数据 就是一个数据集,例如:(色泽=青绿;根蒂=蜷缩;敲声=清脆)、(色泽=乌黑;根蒂=硬挺;敲声=清脆)、··· ···、每对括号内是一条记录。
    预测任务是希望通过对训练集{(x1,y1),(x2,y2),``` ```,(xm,ym)}进行学习,建立一个输入空间X到输出空间y的映射f:x->y.

  数据集(data set):记录数据的集合,称为数据集。在西瓜这个例子中,所有括号内的数据集合在一起记录了西瓜的好坏,这个集合,就是一个数据集

  特征(feature):反映事件某对象在某方面的表现或性质的事项。例如“色泽”、"敲声"等,色泽反映了西瓜的颜色,敲声反映了西瓜的敲击声音。

  属性(feature value): 特征的取值,例如“青绿色“、"乌黑"等,其表示西瓜的色泽为青绿色或乌黑等颜色。

    样本空间(sample space):特征张成的空间。例如:色泽、根蒂、敲声,我们可以作为三个坐标轴。将他们张成描述西瓜的三维空间。

  特征向量(feature vector):在特征空间中,空间内每一个点对应一个坐标向量,所以每个示例也可以称为成为“特征向量”。

   分类:预测离散值:"好瓜"、“坏瓜”。基于离散值的学习任务称为“分类’

   回归:预测连续值:西瓜的熟透度:0.95、0.37等,此类学习任务称为“回归” y= R,R为实数集

    二分类:涉及两个类别的任务。统称有一个正类和反类。y={-1,1}或{0,1};

    多类:涉及多个类别的任务。|y|>2

    泛化:表示模型适用于新样本的能力。

    聚类:对一些未知的属性进行训练。例如将训练集中的西瓜分成若干个组,每个组称为一个“簇”。自动形成的“簇”对应一些潜在的概念。

    监督学习(LDA)和无监督学习(PCA):对属性完全知晓的为监督学习(即有标记的样本 labeled sample,已知其相应的类别),回归和分类为其代表;而潜在未知属性值的学习任务则为无监督学习(是实现没有有标记的、已经分类好的样本,需要我们直接对输入数据集进行建模),聚类则为其代表。

    在监督学习和无监督学习中,还有一种新的概念,半监督学习,是综合了以上两个学习模型创造出来的新模型,在半监督学习中,会有两个样本集,一个有标记,一个没有标记。综合利用有类标的样本( labeled sample)和没有类标的样本( unlabeled sample),来生成合适的分类函数。

2.假设空间:

    归纳:从特殊到一般的“泛化”过程。演绎:一般到特殊的“特化”过程。在这里机器学习使用的大都是“归纳”所以我们可以将训练过程称为“归纳学习”。

    在西瓜的样本中,我们使用了个归纳学习中的狭义的归纳学习,狭义的归纳学习则要求训练数据中学的概念,而概念中最基本的是布尔概念学习。则对结果用0,1表示。

    一个样本的特征值会有多种,但并不是所有特征值都会对结果有所影响,而且不同的特征配合起来,也会有不同的结果,所以在样本空间中,我们可以假设多种结果。在西瓜这个示例中我们假设了多种不同的特征值对结果的影响如图1.1:

    这些结果的假设,我们称为假设空间。

3.归纳偏好:

    通过学习得到的模型对应空间中的一个假设,但这会出现一个问题,那就是不同的假输出的结果对训练集是一样的,可是当对应新的模型时,有可能会出现不一样的输出。例如(色泽=青绿;根蒂=蜷缩;敲声=沉闷)这个记录。当采用“好过<->(色泽=*)Λ(根蒂=蜷缩)Λ(敲声=*)”,结果会是好瓜,但当用其他假设呢?

    所以在这个问题上,我们可以使用“奥卡姆剃刀”原则,越简单越好。则在机器学习算法中对应的是“最平滑”的最好,所以有一个这里出现了一个新的专业术语“拟合”度,当算法得出的结果曲线越平滑时,我们可以认为它“拟合”好,我们即选用这个算法,当最终结果图过于弯曲,我们可以认为它“过拟合”,过拟合的算法泛化能力也会相对较弱,所以一般情况下不会选中。如下图1.3:

很明显,B线段弯曲程度较大,变化也会较大,很明显出现了过拟合的情况,所以这种情况下,我们会选用A线段的算法。<br />
    但并不是说明所有样本都是和奥卡姆剃刀原则,因为任何事情也会出现特殊情况,会有误差的出现,所以并没有算法是万能的,NFL定理告诉我们:任何算法脱离了具体问题都毫无意义,所以算法必须针对具体问题来选择,我们要尽量考虑到所有潜在的因子。

NDL定理:指在机器学习中,没有给定具体问题的情况下,或者说面对的是所有问题的情况下,没有一种算法能说得上比另一种算法好。换成我们的俗话讲,就是“不存在放之四海而皆准的方法”。只有在给定某一问题,比如说给“用特定数据集给西瓜进行分类”,才能分析并指出某一算法比另一算法好。这就要求我们具体问题具体分析,而不能指望找到某个算法后,就一直指望着这个“万能”的算法。作者:andyham链接:https://www.jianshu.com/p/43ef45d42f32來源:简书简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。

相关文章

  • 机器学习(1)

    本章节是对我学习完机器学习(周志华)第一章 所做出来的总结 第一章绪论 1.1 引言 机器学习的定义:致力于如何通...

  • svm基础学习笔记

    基本梳理 根据《机器学习实战》和周志华《机器学习》,总结要点如下: SVM本质是要求具有最大间隔距离的超平面; 求...

  • 《机器学习_周志华》PDF高清完整版-免费下载

    《机器学习_周志华》PDF高清完整版-免费下载 《机器学习_周志华》PDF高清完整版-免费下载 下载地址:网盘下载...

  • 常见的机器学习和数据挖掘的基本知识点

    在学习了吴恩达老师的机器学习的课程之后,接着就看了周志华老师的《机器学习》,因此,总结了一些相关机器学习的知识点...

  • 机器学习(周志华) -- 第一章总结

    1.专业术语 在机器学习中,先要有数据,在机器学习(周志华)这本书中,经典例子不外乎西瓜。所以这里西瓜的数据 就是...

  • 《机器学习》(周志华)——第一章总结

    1.1引言 机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。 计算机从数据中产生模型的算法称为...

  • 机器学习资源总结(没有比这更全的了!)

    机器学习资源 Machine learning Resources 快速开始学习: 周志华的《机器学习》作为通读教...

  • 《机器学习》周志华

    总的来说,除了前两章是基础,其余章节都是介绍模型方法,应用场景、理论推导、优化过程、算法等,每章都可独立阅读而不受...

  • 机器学习-周志华

    点击这里下载 密码:248h 本站所有资源仅供学习使用,请在24小时内删除,本人不承担任何相关责任!

  • 机器学习-周志华

    一:绪论: 选择偏好 机器学习的算法中,不在某一个算法比另外一个算法优秀,而是需要结合实例去分析。每一个算法在面对...

网友评论

      本文标题:机器学习(周志华) -- 第一章总结

      本文链接:https://www.haomeiwen.com/subject/ltbvuftx.html