01
什么是统计学习理论
机器学习的方法是现代智能技术中十分重要的一个方面,主要研究如何从一些样本出发得出目前不能通过原理分析得到的规律,利用这些规律去分析客观对象,对未来数据或无法观测的数据进行预测。
统计模式识别问题可以看做基于机器学习的一个特例,由万普尼克(Vapnik)建立的一套机器学习理论,使用统计的方法,因此有别于归纳学习等其它机器学习方法。它是有限样本情况下的 机器学习理论研究逐渐成熟起来,形成了一个较完善的理论体系---统计学习理论,是传统统计学的重要发展和补充。其核心思想是通过控制学习机器的容量实现对推广能力的控制。
统计学习理论提供了机器学习的一个理论基础。通过理论推导,从本质上说明了机器学习为什么会出现过拟合现象,以及过拟合与模型选择、训练数据之间有什么关系。
02
统计学习理论,不是统计学
统计学是处理数据和解释数据的数学领域
机器学习是一种计算算法(诞生于计算机科学)
统计学习理论不是统计学理论,是用统计学的知识为机器学习提供理论基础,试图从更本质上研究机器学习问题,统计学习理论提供了机器学习的一个理论基础。通过理论推导,从本质上说明了机器学习为什么会出现过拟合现象,以及过拟合与模型选择、训练数据之间有什么关系。
03
统计学习理论研究内容
统计学习理论主要是研究以下三个问题:
① 学习的统计性能:通过有限样本能否学习得到其中的一些规律?
② 学习算法的收敛性:学习过程是否收敛?收敛的速度如何?
③ 学习过程的复杂性:学习器的复杂性、样本的复杂性、计算的复杂性如何?
如今,统计学习理论在模式分类、回归分析、概率密度估计方面发挥着越来越重要的作用。
04
统计学与机器学习目的差异
注意,不是统计学习理论!
统计是对数据的数学研究。
统计模型是数据的模型,主要用于推断数据中不同内容的关系,或创建能够预测未来值的模型。有很多统计模型可以做出预测,虽然有人认为预测效果比较差强人意。
而机器学习通常会牺牲可解释性以获得强大的预测能力。例如,同样是线性回归,机器学习侧重的是通过建模数据集“训练”一个模型,关注其在测试数据集上的预测效果,而统计学则“拟合”一个模型,更关注假设检验结果。
神经网络作为机器学习的主要算法,尽管解释性变差,但是预测能力却大幅提高。
统计建模的目的是描述数据与输出变量之间的关系, 而不是对未来数据进行预测,我们称此过程为统计推断,而不是预测。尽管我们可以使用此模型进行预测,这也可能是你所想的,但评估模型的方法不再是测试集(个人的看法,还是需要),而是评估模型参数的显著性和健壮性。
05
总结
学统计学之后,在接触机器学习,总是有点不习惯,感觉机器学习是唯结果论。机器学习接触多了,统计学分析的那种严谨性感觉被撕裂了一道口子。
参考文章
网友评论