1. 基本概念:训练集,测试集,特征值,监督学习,非监督学习,半监督学习,分类,回归
2. 概念学习:人类学习概念:鸟,车,计算机
定义:概念学习是指从有关某个布尔函数的输入输出训练样例中推断出该布尔函数
3. 训练集(training set/data)/训练样例(training examples): 用来进行训练,也就是产生模型或者算法的数据集
测试集(testing set/data)/测试样例 (testing examples):用来专门进行测试已经学习好的模型或者算法的数据集
特征向量(features/feature vector):属性的集合,通常用一个向量来表示,附属于一个实例
标记(label): c(x), 实例类别的标记
正例(positive example)
反例(negative example)
4. 分类 (classification): 目标标记为类别型数据(category)
回归(regression): 目标标记为连续性数值 (continuous numeric value)
5. 例子:研究肿瘤良性,恶性于尺寸,颜色的关系
特征值:肿瘤尺寸,颜色
标记:良性/恶性
有监督学习(supervised learning): 训练集有类别标记(class label)
无监督学习(unsupervised learning): 无类别标记(class label)
半监督学习(semi-supervised learning):有类别标记的训练集 + 无标记的训练集
6. 机器学习步骤框架
6.1 把数据拆分为训练集和测试集
6.2 用训练集和训练集的特征向量来训练算法
6.3 用学习来的算法运用在测试集上来评估算法 (可能要设计到调整参数(parameter tuning), 用验证集(validation set)
网友评论