统计学习笔记（一）

作者: 黑哥666 | 来源:发表于2019-03-10 19:30 被阅读12次

学习统计笔记
统计学习笔记（一）
统计机器学习基本概念
【基础不牢，地动山摇】什么是统计学习
21天E战到底学习笔记Day15
统计学习方法笔记(第四章个人笔记)
统计学习笔记——统计描述
R语言：多水平统计模型
StatQuest
大师兄的Python机器学习笔记:统计学基础之底层代码实现（二）

最近开始看李航老师的统计学习方法，在这里做点笔记

统计学习基本概念

定义：是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测和分析的一门学科
对象：数据
目的：用于对数据进行分析和预测，特别是对未知新数据进行预测和分析
方法：统计学习的方法是基于数据构建统计模型从而对数据进行分析和预测，统计学习由监督学习、半监督学习、非监督学习和强化学习等组成

统计学习三要素

模型
策略
算法

实现统计学习的步骤

1.得到一个有限的训练数据集合
2.确定包含所有可能的模型的假设空间，即学习模型的集合
3.确定模型选择的准则，即学习的策略
4.实现求解最优模型的算法，即学习的算法5
5.通过学习方法选择最优模型
6.利用学习的最优模型对新数据进行预测和分析

监督学习基本概念

输入空间：将输入的所有可能只的集合称为输入空间
输出空间：将输出的所有可能只的集合称为输入空间
特征空间：每个集体的输入是一个实例，通常由特征向量表示，所有特征向量存在的空间称为特征空间

联合概率分布：统计学习假设数据存在一定的统计规律，X和Y具有联合概率分布的假设就是监督学习关于数据的基本假设

假设空间：模型属于由输入空间到输出空间的映射的集合，这个集合就是假设空间

统计学习三要素

方法=模型+策略+算法

模型：监督过程所要学习的条件分布或决策函数

策略：学习的准则或选择最优模型
1.损失函数：预测值和真实值的差用一个函数表示，包括0-1损失函数、平方损失函数、绝对损失函数和对数损失函数
2.风险函数：损失函数的期望，理论上模型关于联合分布或决策函数的平均意义下的损失
3.经验损失：模型关于数据集的平均损失
4.结构风险：在经验损失的基础上加上表示模型复杂度的正则化项或罚项

算法：学习模型的具体计算方法