统计学习
统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,统计学习也称为统计机器学习。当前大部分机器学习也都指的是统计机器学习。
特点
- 以计算机和网络为平台
- 以数据为研究对象,是数据驱动的学科
- 目的是对数据进行分析和预测
- 以方法为中心,通过方法构建模型并应用模型来进行分析和预测
- 是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科。
如果一个系统能够通过执行某个过程来改进它的性能,这就是学习。
统计学习的对象
统计学习的对象是数据,从数据出发
,提取数据的特征,抽象出数据的模型,发现数据中的联系,最后回到对数据的分析和预测中。数据又是多样的,可以使数字、文字、图像、视频、音频以及它们的组合。
统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提。
统计学习的目的
统计学习用于对数据的分析和预测,特别是未知的新数据的分析和预测,而对数据的分析和预测是通过构建概率统计模型来实现的,所以统计学习的目的就是考虑构建怎么一个模型和怎么通过模型进行学习,使模型能够更精确的分析和预测,同时也要考虑学习效率。
统计学习的方法
常用的方法有一下几种:
- 监督学习
- 非监督学习
- 半监督学习
- 强化学习
所有统计学习的方法包括下面几个部分
- 模型的假设空间
- 模型选择的准则
- 模型学习的算法
以上三点称为统计学习方法的三要素,简称为模型、策略、算法。
通常实现统计学习方法的步骤如下:
- 得到一个有限的训练数据集合
- 确定包含所有可能的模型的假设空间,即模型学习的集合
- 确定模型选择的准则,即学习的策略
- 实现求解最优模型的算法,即学习的算法
- 通过学习方法选择最优模型
- 利用学习的最优模型对新数据进行分析和预测
统计学习重要的作用
- 统计学习是处理海量数据的有效方法
- 统计学习是计算机智能化的有效手段
- 统计学习是计算机科学未来发展的重要组成
网友评论