机器学习:
对于给定的任务T,在合理的性能度量方案P的前提下,某计算机程序可以自主学习任务T的经验E,随着提供合适、优质、大量的经验E,该程序对于任务T的性能逐步提高。
有监督学习(Supervised Learning)
根据已有的训练样本,通过不断计算,从样本中学习选择特征参数,对模型建立目标函数,从而对未知样本进行预测。
优点:可以有效利用先验数据对后验数据进行预测
缺点:训练数据人为收集,具有一定的主观性,预测结果只可能是训练数据中的类别,不会产生出新的类别。
如神经网络、SVM、决策树等。
无监督学习(Unsupervised Learning)
对模型不事先进行先验知识学习,不对模型进行训练,使用未分类的样本数据直接进行分类的过程。
优点:人为干预较少,结果具有一定的客观性。
缺点:计算过程较为复杂。
如聚类算法等。
输入与输出空间
输入与输出所有可能取值的集合分别称为输入空间X和输出空间Y。
输入空间和输出空间可以是有限集合,也可以是整个欧氏空间;输入与输出空间可以是同一空间,也可以是不同空间。但通常输出空间远小于输入空间。
一般地,令D={}表示包含m个样本的数据集,每个样本由d个属性来描述,则样本xi=(,,…,)是d维样本空间中的一个向量,,而是在第j个属性的取值,d称为样本的维数。
奥卡姆剃刀(Occam’s razor)原则
奥卡姆剃刀原则是自然科学研究中一种常用和最基本的原则,即“若有多个假设与观察一致,则选用最简单的那个”。
回归(regression)和分类(classification)
回归和分类是对不同预测任务的相应称法。
若我们要预测(输出)的结果是连续值,则此类学习任务称为回归;
若我们要预测(输出)的结果是离散值,则此类学习任务称为分类。
若问题输出结果只有二个类别,则通常称为二分类问题,否则为多分类问题。
回归包含线性回归和逻辑回归,线性回归等同于函数拟合,用于模型学习和连续值输出;逻辑回归可解决分类问题,输出离散值。
网友评论