Datawhale统计学一周集训——任务四

Datawhale统计学一周集训——任务四

作者: 晓迦 | 来源:发表于2019-01-07 23:55 被阅读9次

Datawhale统计学一周集训——任务四
Datawhale统计学一周集训——任务二
Datawhale统计学一周集训——任务三
Datawhale统计学一周集训——任务一
Datawhale编程集训第四天
线性回归模型
Datawhale编程集训第三天
Task05 天池新闻推荐入门赛之【排序模型+模型融合】
Datawhale编程集训第一天
Datawhale编程集训第二天

任务内容

学习任务（一）
62-71集线性回归
学习任务（二）
72-81集卡方分布与方差分析

学习笔记

简单线性回归

线性回归是基于某个变量X（自变量）来预测变量Y（因变量）的值。
$Y=b_0+b_1x+e$
采用最小二乘法，即最小化平方误差和（SSE）

分别对

参考：理解简单线性回归的概念

决定系数 $R^2$

$R^2 = \frac{SSR}{SST}=1-\frac{SSE}{SST}$
SSR：预测数据与原始数据均值之差的平方和
SST：原始数据与原始数据均值之差的平方和
SSE : 该统计参数计算的是拟合数据和原始数据对应点的误差的平方和
决定系数是通过数据变化来表征一个拟合的好坏，取值范围为[0,1],越接近1，表明方程的变量对y的解释能力越强，这个模型对数据的拟合也就越好。
参考： R^2

协方差与相关系数

协方差公式：

协方差表示两个变量X和Y的同向变化情况，如果是正的，表示同向变化，负的表示反向变化，越大表示相关性越大。
如果某一时刻的协方差为负数，也不一定说明他们反向运动，具体要结合整体情况来判断。

相关系数公式：

相关系数也可以看成协方差：一种剔除了两个变量量纲影响、标准化后的特殊协方差。
变化范围为-1到+1.+1表示完全正相关，-1表示完全负相关。
参考：协方差与相关系数

补充

机器学习线性回归模型可以参考：
线性回归
 线性回归详解
 线性回归算法解析

$X^2$ 分布

$X^2$ 概率分布主要用于检查实际结果与期望结果之间何时存在显著差别。
$X^2$ 分布的两个用途：

第一用于检验拟合优度，也就是可以检验一组给定的数据与指定分布的吻合程度。
第二可以用于两个变量之间的独立性，通过这种方法可以检查变量之间是否存在某种关联。

自由度：v=(组数)-(限制数)
显著性水平： $\alpha$

$X^2$ 假设检验

不同分布不同情况下的自由度：

对于一张大小为h*k的表格，自由度为：

F检验

F分布是两个卡方分布（具有不同的自由度）的比值。

方差分析（ANOVA），又叫F检验，简单来说，就是求得F统计量（组间方差/组内方差），然后查F表，如果大于临界值（一般是0.05显著性水平下）则拒绝原假设，即组间具有显著性的差异。

F统计量 = 组间方差/组内方差
这里的方差等于平方和除以自由度，组间的自由度为(组数-1)，组内自由度为组数*（样本量-1），此样本量可以不一样，所以方差分析各组的样本量可以不一样；

实际中我们的主要问题是看组间是否有差异，ANOVA告诉我们组间的差异不仅要看组间的波动，还要看组内的波动，如果组内波动太大的话，很可能不存在差异，只是组内的数据乱而已，当然组间的波动越大，则组间的差异越大。
参考：F检验（ANOVA）
记录几个好的博客，回头学习：
通俗理解T检验与F检验的区别
 Ftest（F检验，P值求取）

相关文章

Datawhale统计学一周集训——任务四
任务内容学习任务（一）62-71集线性回归学习任务（二）72-81集卡方分布与方差分析学习笔记简...
Datawhale统计学一周集训——任务二
学习内容可汗学院视频 35-46集中心极限定理、置信区间学习笔记中心极限定理不管总体的分布如何，多次...
Datawhale统计学一周集训——任务三
任务内容学习内容（一）47-53集假设检验（一）学习内容（二）54-61集假设检验（二）学习笔记假设检...
Datawhale统计学一周集训——任务一
学习内容学习内容（一）可汗学院统计学12-26集，统计学基础知识、二项分布及泊松分布学习内容（二）可汗学院统计学...
Datawhale编程集训第四天
一、二叉树遍历 1、简介二叉树是有限个元素的集合，该集合或者为空、或者有一个称为根节点（root）的元素及两个互...
线性回归模型
DataWhale 组对学习活动笔记本笔记源于Datawhale组对学习活动的任务笔记，也作为我对以前知识的回顾...
Datawhale编程集训第三天
一、队列 1、简介队列（queue），是先进先出（FIFO, First-In-First-Out）的线性表，在...
Task05 天池新闻推荐入门赛之【排序模型+模型融合】
学习文档：http://datawhale.club/t/topic/202[http://datawhale.c...
Datawhale编程集训第一天
一、关于哈希表 1.哈希表的定义散列表（Hash table，也叫哈希表），是根据关键码值(Key value)...
Datawhale编程集训第二天
一、单链表 1.链表定义链表(linked list)是由一组被称为结点的数据元素组成的数据结构，每个结点都包含...

网友评论

数据蛙数据分析每周作业

本文标题：Datawhale统计学一周集训——任务四

本文链接：https://www.haomeiwen.com/subject/wftkrqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

数据蛙数据分析每周作业

热点阅读

数据蛙数据分析每周作业

关于我们|服务条款|联系我们|Datawhale统计学一周集训——任务四|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！