数据分析入门-基本概念

作者: 毛嘎子 | 来源:发表于2016-08-10 11:13 被阅读589次

数据分析入门-基本概念
DAY7+ 学习笔记 by 康康
解密大数据专栏文章分类【转】
解密大数据专栏文章分类
【课程笔记】《Udacity数据分析（入门）》「纳米学位」——第
Excel 学数据分析（1）简介
数据结构学习大纲
ML入门——EDA探索性数据分析（中）(Seaborn)
ML入门——EDA探索性数据分析（下）(特征工程)
ML入门——EDA探索性数据分析（上）

SAS提出了一套数据分析的流程
1.抽样S：导入，过滤选取某些条件的样本，抽样
2.探索E：数据分布是什么样子的？平均数。数值之间是否存在一定的相关性。特征选择。
3.修改M：删除一些不必要的特征
4.建模M：逻辑回归，
5.评估：模型比较，评分

** 数据分析流程**：在经过这个过程之前，你还必要对业务非常了解（所以之前去做HIS调研，或者阅读相关政策文件，去和业务方沟通是非常必须的），才能知道数据分析的目的是什么；收集数据（就相当于在解决方案出来之后，去找合作方要数据，然后再对数据做清洗）

** 离散变量** ：只能用自然数或者整数单位计算的，比如设备台数、男生个数；
** 连续变量**：在一个区间内可以任意取值。男生的身高；销售额是连续变量，销售量是离散的还是连续的？得看销售量是怎么定义的，如果是重量，那应该是连续的，如果是个数，那就是离散的

** 描述统计**：平均值、最大值、最小值、均值、期望、方差、标准误

均值与期望：离散型变量的期望就是总体的均值，均值是在一组数中求平均，而期望是在一个大样本中，通过抽样来预测大样本的均值。反应一组变量的集中程度。
中位数：
方差：是反应一组变量取值的分散程度。如果是比较两组数据的离散程度，会考虑使用变异系数=标准差/平均数
标准误：是统计推断可靠性的指标，代表样本统计量与总体参数值的偏离程度
均值的标准误：标准差/sqrt(N)
推断一组数据是否服从正太分布，会使用偏度系数和峰度系数来反应偏离正太分布的程度。
偏度：描述某变量取值分布对称性的统计量。如果右边有长尾巴，则右偏，>0。左偏<0
峰度：;某变量所有取值分布形态陡缓程度，与正太分布相比，如果>0.表示尖顶峰。
协方差：多维随机变量，两个随机变量之间关系的数字特征。如果协方差为正，两个变化趋势相同，如果为0，则两个变量不一定相互独立，但是相互独立，协方差一定为0
算数平方数和几何平均数：（a1+a2）/2;开根号（a1*a2）；几何平均数是一种计算平均发展速度时常用到的

置信区间

显著性水平：α，假设H为真，但是H被拒绝的概率。。小概率发生的概率，这个值越大，原假设被拒绝的概率越大。
P值
置信水平（置信度）：假设H为真，H被接收的概率。总体参数值落在样本某一区间的概率1-a。
置信区间：样本统计值与总体参数值的误差范围，如果区间很大，可以理解为总体很包容，被接受的概率大，置信水平高。

自由度：df。自由度指的是计算某一统计量时，取值不受限制的变量个数。通常df=n-k。其中n为样本含量，k为被限制的条件数或变量个数（比如说已知样本的均值，自由度就要减1，因为第n个数的取值是由平均值和前n-1个数就可以确定的）

相关系数：两组数据间是否有无关系，如果|相关系数|>0.7说明两者存在某种关系，如果值是负的则代表是负相关；
** 相关关系与因果关系：很多事物之间是有相关关系，A增长B也会随之增长，不一定是因为A导致了B，因果关系是有方向的。但是相关关系是没有方向
确定关系：已知边长得到面积，可以表示为函数关系的就是确定性关系。
其实回归研究的是一种相关关系，而不是确定关系。因为存在其他影响Y的因素还有很多，包括一些我们还没有发现的，和一些随机因素，因此自变量X只能在一定程度上决定y，回归方程是用确定性的函数关系来近似地描述非确定的相关关系。
** T检验：检测两组数据是否有差异，

** 样本 **：调查某中学300名中学生的视力情况中，样本是300名中学生的视力情况（注意不是300名学生），而样本容量则为300.

** 数据的分布情况 **：