美文网首页
(第23-24章)笔记

(第23-24章)笔记

作者: 通向财富自由之路 | 来源:发表于2022-04-05 12:50 被阅读0次

第二十三章 统计与数据科学

一、统计调査的方式

统计报表是自上而下地统一布置、自下而上地逐级提供基本统计数据的调査方式。

普査:

特点:一次性的或周期性的;规定统一的标准调査时间;准确,规范化程度较高;使用范围比较窄

经济普査每10年进行两次,分别在每逢年份的末尾数字为38的年份实施。人口普査逢“0”的年份进行,农业普査逢“6”的年份进行,均为每10年一次

抽样调査:根据样本调査结果来推断总体数量特征的一种非全面调査,具有经济性、时效性强、适应面广、准确性高的特点

重点调査

1 从所要调査的总体中选择一部分重点单位进行调査,属于非全面调査,调査结果不能推断总体

2 重点单位是指在所要调査的数量特征上占有较大比重的单位

典型调査

1 有意识地选择若干具有典型意义的或有代表性的单位进行的调査,属于非全面调査,调査结果不能推断总体

2 作用:弥补全面调査的不足,在一定条件下可以验证全面调査数据的真实性

二、数据科学与大数据

1、 大数据具有4V特性:数据量大、数据多样性(含结构化、非结构化、半结构化数据)、价值密度低、数据的产生和处理速度快。

2、 数据挖掘的含义:

1)数据源必须是真实的、大量的、有噪声的;(2)发现的是用户感兴趣的知识3)发现的知识是可接受、可理解、可运用的4)并不要求发现放之四海而皆准的知识,仅支持特定的发现问题

3、 数据挖掘常用的算法:分类、聚类分析、关联分析、趋势与演化分析、特征分析、异常分析

4、 数据可视化包含科学可视化(面向科学与工程领域)和信息可视化(处理对象是非结构化、非几何的抽象数据)


离散程度的测度

方差:各数值与其均值离差平方的平均数。其单位是原数据单位的平方,没有解释意义。方差越小,均值的代表性越好。

标准差:即方差的平方根。用于测度数据的离散程度。

共同点:都只适用于数值型数据,具有比较好的数学性质。

离散系数(变异系数)

即标准差与均值的比值。主要用于不同类别数据离散程度的比较,消除了测度单位和观测值水平不同的影响,可以直接用来比较变量的离散程度。

分布形态的测度

偏态系数描述的是数据分布对称程度。取决于离差三次方的平均数与标准差三次方的比值。

1 系数为0数据分布是对称的。

2 系数为正数:数据分布右偏。。〜0.5 (轻度),0.51 (中度),大于1 (严重)。

(3 系数为负数:数据分布左偏。0 0.5 (轻度),一0.5 1 (中度),小于一1 (严重)。

标准分数标准分数2=(给出的数值-均值):标准差

约有68%的数据与平均数的距离在1个标准差之内,标准分数在[-1, 1]约有95%的数据与平均数的距离在2个标准差之内,标准分数在[-2, 2],约有99%的标准分数在[-3,+3]。

变量间的相关分析

相关关系完全相关:一个变量的取值完全由另一个变量的取值变化来确定

不相关现象:两个变量的取值变化彼此互不影响

正相关:是指一个变量的取值随着另一个变量的取值增大而增大;相反为负相关。

相关关系并不等同于因果关系,也不等同于函数关系。

相关系数(Pearson)

-l<r<0:负线性相关0<r<l:正线性相关

r=-l:完全负线性相关r=0:无线性相关,不存在线性相关 r=l:完全正线性相关

|r|<0.3:无线性关系0.3<|r|<0.5:低度相关0.5<|r|<0.8:中度相关|r|N0.8:高度相关

相关文章

网友评论

      本文标题:(第23-24章)笔记

      本文链接:https://www.haomeiwen.com/subject/rnvdjrtx.html