入门
任务是从样本中推理
- 需要解决的问题是:
-
处理海量数据的存储和计算的高效算法
-
学习得到的模型,一定是高效的,即时间复杂度,空间复杂度和精确度都是相对最好的
- 一些问题的常用数学知识解法
- 关联规则,使用条件概率 P(Y|X),即在X发生的条件下,Y发生的概率
如购物篮的分析,可以样本分析在购买了X的顾客中同时购买了Y的概率来,决定是否要打包销售Y,或者可以通过数据来预测网站中的外链那些是跳出概率较大的,可以对这些做一些预处理的操作
- 分类问题
学习的局限性
- 从特殊到一般的推断和学习的估计
- 机器学习的模型应该是能够自适应环境的才好
- 在统计学,模式识别、神经网络信号处理、控制、人工智能以及数据挖掘等领域,按照不同的学习方法和侧重点来研究机器学习的可行性
监督学习
监督学习分为:分类(离散的数据)和回归(连续的数据)
- 泛化
表示应该正确的分类却被划分到错误的分类上面,或者是错误的实例划分到正确的分类上面了,这占全部分类的比例就是模型的泛化能力,训练集上训练的模型能在多大程度上能够对新的实例预测出正确输出就是泛化能力
-
VC维
-
噪声
噪声的存在会影响我们对数据的拟合作用
-
回归
-
模型选择与泛化
选择正确的偏倚就是,模型选择,如果模型选的太复杂的话,可能会出现过拟合的想象,但是要是模型选的不够复杂的话,就会出现欠拟合的情况
实例数据训练的学习算法中存在着三种状态的平衡:
- 假设的复杂性(模型的复杂性)
- 数据的总量
- 在新的数据上的泛化能力,也就是模型的预测能力
为了达到这个能力,我们一般使用交叉确认的方式来实现,即将数据集分成训练集和确认集,在训练集上训练得出的模型,能够在确认集上得到正确率最高的模型就是相对最好的模型
网友评论