1.基本术语
data set(数据集)、instance(示例)、attribute(属性)、feature(特征)、sample space(样本空间)、feature vector(特征向量)、dimensionality(维数)、hypothesis(假设)、prediction(预测)、label space(标记空间)、classification(分类)、regression(回归)、clustering(聚类)、supervised learning(监督学习)、generalization(泛化)、induction(归纳)、deduction(演绎)、inductive learning(归纳学习)
2、归纳偏好
机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”(inductive bias)。如果说,一个样本有三个特征(或者说“属性值”),且这三个特征的不同取值都会影响到该样本的最终类别判定。那么我们应该能想到,这三个特征的不同取值对于类别判定的影响是有差别的。或许特征1对类别判定的影响更大些,又或许特征2对类别判定的影响更大些。我们可以简单的认为,每个特征前面都有一个权重参数w(在机器学习中,关于这一块的内容涉及到特征选择(feature selection),而特征选择有涉及到对样本的数据分析)。我们需要知道的是,任何一个有效的机器学习算法,都必须尤其归纳偏好,否则他将无法产生确定的学习结果。如下图所示一样。这里的每个训练样本都是图中的一个点(x,y)。要学得一个与训练集一致的模型,相当于找到一条穿过所有训练样本点的曲线。那么很显然,这条线不止一条。如果说,我们没有归纳偏好的话,那么我们就无法确定哪一条曲线才是正确的模型了。
归纳偏好一般使用“奥卡姆剃刀”原则:若有多个假设与观察一致,则选最简单的那个。
没有免费的午餐“没有免费的午餐”定理,即乌龙学习算法a,多聪明、学习算法b多笨拙,他们的期望性能都一样。
NFL(No Free Lunch)定理。该定理最最重要的寓意,就是让我们清楚的意识到,脱离具体问题空谈“什么学习算法更好”毫无意义,因为若考虑所有潜在的问题,则所有的学习算法都一样好(宏观意义上)。要谈论算法的相对优劣,必须要针对具体的学习问题;在某些问题上表现良好的学习算法,在另一些问题上却可能不尽如人意。学习算法自身的归纳偏好与问题是否相匹配,往往会起到决定性作用。
网友评论