统计学讨论-基于R应用_学习笔记（1）

作者: 东方不赞 | 来源:发表于2020-04-04 17:09 被阅读0次

统计学讨论-基于R应用_学习笔记（1）
PCA(主成分分析) 一
多元统计学-聚类分析
统计学习方法笔记(第四章个人笔记)
基于R的统计习题30个
学习小组Day1笔记--扑通&扑通
机器学习-(1)概论
《统计学习方法-第2版》第1章概论
应用统计学与R语言实现笔记（番外篇二）——假设检验更正
斜杠中年--机器学习

统计，从总体（具有多种属性）中选取样本，根据样本去获得对总体的认识。

1.1 两大基本问题

1.1.1 预测

预测是根据输入值（X）来预测输出值（Y）
$\hat{Y}=\hat{f}(X)+\epsilon$
这类问题下，X是容易测的的，但是输出Y是不容易获得的，不关心 $f$ 的具体结构

1.1.2 推断

推断是研究 $f$ 的具体结构，即因变量Y与自变量 $Y$ 与 $X_{1}$ ， $X_{2}$ ， $X_{3}$ ...的关系

1.2. 对 $f$ 的估计

1.2.1 参数方法

基于模型估计的两阶段方法。

假设 $f$ 具有某种分布
用训练数据集去拟合(fit)或者训练(train)模型，得到该分布下的参数值

优点: 计算简单

这种方法把估计 $f$ 的问题简化为对一组参数的估计。

缺点: 精确度低

选定的模型并非与真正的 $f$ 一致，当拟合效果差时，会通过增加参数（也即增加了模型的复杂度）以拟合 $f$ ，容易拟合了噪声（noise），导致过拟合（overfiting）。

适用-->推断

1.2.2 非参数方法

优点: 精确度高

不需要对 $f$ 的形式做明确的假设，即不限定 $f$ 的具体形式，于是可以在更大的范围上选择更适宜 $f$ 的估计.

缺点: 计算复杂

需要获取大量的观测点

1.3 指导学习与无指导学习

指导学习

对每一个预测变量观测值 $x_{i}$ 都有相应的响应变量的观测 $y_{i}$ 与之对应. 许多传统的统计学习方法都属于指导学习: 如线性回归, logistic回归, 广义可加模型(GAM),支持向量机(SVM)等.

无指导学习

只有预测变量观测值 $x_{i}$ 可以得到,但是相应的响应变量的观测 $y_{i}$ 不容易获得, 无法与之对应. 如:
聚类分析(cluster analysis)

1.4 回归与分类问题

通过研究响应变量（Y）的类型，可以指导我们选择相应的选择模型。

1.4.1 定性变量和定量变量

定性变量也称分类变量，如性别，品牌，肿瘤类型等。
定量变量呈现数值性，如年龄，身高等。

1.4.2 回归与分类

习惯上将响应变量（ $Y$ ）为定量的问题成为回归分析问题，为定性的变量称为分类问题。

2. 模型精度的评价

2.1 拟合效果检验

对于给定的观测，需要定量测量预测的Y与实际观测Y的接近程度。

2.1.1 MSE

均方误差(mean squared error, MSE)公式如下：
$MSE=\frac{1}{n}\sum_{i=1}^n(y_{i}-\hat{f}(x_{i}))^2$

2.1.2 自由度

自由度（degree of freedom）是一个用来描述曲线光滑程度的量。限制性强且曲线平坦的模型比锯齿形曲线具有更小的自由度

自由度增加，即曲线变得更曲折的时候，模型在训练集里面的均方误差会下降。

2.1.3 训练集的MSE和测试集的MSE

根据训练集训练的参数，其MSE会比较小，但是却不能保证应用到测试集的时候也具有较小的MSE。
很多时候，测试的代价是很高的！比如火箭发射等。这种情况下，如何比较各个模型间的MSE和自由度就成了一个棘手的事情。
可以采用交叉验证（cross-validation）的方法。

2.2 偏差-方差权衡

2.2.1 期望测试MSE

期望测试均方误差可以分解为 $\hat{f}(x_{0})$ 的方差、 $\hat{f}(x_{0})$ 偏差的平方和、误差项 $\varepsilon$ .
$E(y_{0}-\hat{f}(x_{0})=Var(\hat{f}(x_{0}))+[Bias(\hat{f}(x_{0}))]^{2}+Var(\varepsilon)$

CN	EN	Math
期望测试均方误差	expected test MSE	$E(y_{0}-\hat{f}(x_{0}))^2$
平均测试均方误差	average test MSE	所有可能的期望测试MSE取平均

2.2.2 方差与偏差

方差（variance）代表用不同的训练数据集估计 $f$ 时，估计函数的改变量。光滑程度越高方差越大。
偏差（bias）指的是为了选择一个简单的模型逼近真实函数而被带入的误差。光滑程度越高偏差越小。
=>光滑度高的模型，模型方差较大，偏差较小。但是var和bias的增减幅度并不一致，产生一个U型曲线，因此可以找到一个E最小模型

2.3 分类模型

训练错误率
测试错误率

贝叶斯分类器

K最邻近方法

统计学讨论-基于R应用_学习笔记（1）
统计，从总体（具有多种属性）中选取样本，根据样本去获得对总体的认识。 1.1 两大基本问题 1.1.1 预测预测...
PCA(主成分分析) 一
引用自：1. http://blog.jobbole.com/86905/2. 应用统计学与R语言实现学习笔记（十...
多元统计学-聚类分析
参考： 1.应用统计学与R语言实现学习笔记（十）——聚类分析)2.厦门大学-多元统计分析3.DBSCAN 密度聚类...
统计学习方法笔记(第四章个人笔记)
统计学习方法笔记(第四章个人笔记) 标签：统计学习方法朴素贝叶斯法描述：朴素贝叶斯法是基于贝叶斯定理与特征条...
基于R的统计习题30个
基于R的统计习题30个统计学是一门很深的学问，这里仅仅是出题帮助大家熟练使用R语言来学习统计学知识，具体知识点需...
学习小组Day1笔记--扑通&扑通
R way -- P1 每日待办参与群讨论 Markdown 笔记 or 思维导图简书社区发布学习笔记，投稿到...
机器学习-(1)概论
基于目前我的学习，给出我所认为比较重要的点吧，不喜勿喷 1 统计学习统计学习方法基于数据来说，主要分为监督学习，...
《统计学习方法-第2版》第1章概论
1.1 统计学习统计学习的特点统计学习（statistical learning）：是关于计算机基于数据构建概率...
应用统计学与R语言实现笔记（番外篇二）——假设检验更正
今天的文章想从统计学的角度——假设检验，来回顾最近的疫情。同时也是刚好有之前应用统计学与R语言实现笔记假设检验一章...
斜杠中年--机器学习
斜杠中年--PART 1 机器学习必备能力：统计学参考书籍：《应用预测建模》《统计学习入门》《编程集体智慧》 ...