序言
1、什么是机器学习?
通过计算的手段,利用经验来改善自身的性能。机器通过学习,在结果上性能改善的部分,就是学习到的内容。
2、机器学习研究的主要内容?
从海量数据中产生模型的算法,主要是算法的研究
3、什么是模型?
从数据中学习到的结果。
基本术语
1、什么是样本?
我们有一组数据来描述我们的客户,这一组描述数据,即为一组数据集。每一条描述信息对应一个客户,也叫做一个样本(示例)。
2、什么是特征?
客户有姓名、卡号、学历、地域等各种信息,在分析客户的时候,这些信息都可以作为客户的一个属性或者特征,这些特征有很多取值,比如地域就可能是上海、安徽等,这些值就叫属性值。
3、什么是样本空间和特征向量?
属性值所在的全部取值,就是这个属性的属性空间,也叫样本空间。多个特征张开的一个多维属性空间,每个样本数据都能在属性空间中找到自己的位置,每个示例在这个属性空间中就以一个特征向量来表示。整个属性空间的维度是由特征的个数决定的。
4、什么是训练?
模型训练就是将训练数据(一条训练数据就是一个训练样本)通过一个算法进行学习,得到一个模型,该模型揭示了数据中某种潜在的规则。规则本身可谓数据的一个真相,得到的模型可谓数据通过计算产生的一个假设。机器学习就是不断的学习,让我们的结果无限逼进真相。
5、什么是预测?
带有预测功能的模型,提供训练的数据集是带有结果的,即每一个样本数据都是有一个标记的,因此需要对样本数据进行打标,所有可能的标记结果形成一个标记空间。
6、离散和回归?
如果我们要的结果的个数是离散的,即有有限个结果,那么此类学习任务称为离散。如果我们的结果是连续的,即为回归任务。
对于只有两个结果的离散任务,通常一个设为正类,一个设为负类。
7、什么是聚类?
将样本数据,根据一定的规则,划分为不同的组,每一个组内部的样本都有一定的规则。其中,内在的规则事前是不知道的,进行聚类的数据是没有标记的。
8、学习任务的分类?
没有标记的训练数据的训练:无监督学习。如聚类
有标记的训练数据的学习:有监督学习。如离散和回归
发展历程
机器学习研究划分为四个方面:
1、机械学习。死记硬背式学习。
2、类比学习。
3、式教学系。通过观察和发展学习
4、归纳学习。即从样例中学习(也是广义的归纳学习,也是主流的研究方向)
归纳学习的研究分支
1、符号主义学习。代表为决策树和基于逻辑的学习
决策树:以信息论为基础,以信息熵最小化为目标,模拟了人类对概念进行判定的属性流程
基于逻辑的学习:代表为归纳逻辑程序设计(ILP),ILP为机器学习与逻辑程序设计的交叉,使用一阶逻辑来进行知识表示,通过修改和扩充逻辑表达式来完成对数据的归纳。(不懂)
缺点:表示能力太强,导致学习过程中产生的假设空间太大、复杂度极高。
2、基于神经网络的连接主义学习。代表为BP神经网络
神经网络的学习主要是对参数的调整(不认同)。
缺点:神经网络属于一个黑箱模型,从知识的获取角度来看,有一些先天性的不足。
3、基于统计学习。代表为支持向量机(SVM)和核方法
4、深度学习。其实就是多层的神经网络
网友评论