美文网首页
第一章 数据分析的基础

第一章 数据分析的基础

作者: sunsaint | 来源:发表于2019-11-28 22:59 被阅读0次

数据分析的前提是数据的搜集与加工处理

1.1 数据分组与变量数列

1.1.1 数据分组

数据分组 就是对某一变量不同取值,按照其自身变动特点和研究需要划分成不同的组别,以便更好地研究该变量分布特征及变动规律

变量

类型

  • 离散变量:指变量值可以按一定顺序一一列举,通常以整数位取值的变量
  • 连续变量:在一定区间内可以任意取值的变量叫连续变量, 其数值是连续不断的, 相邻两个数值可作无限分割,即可取无限个数值。

分组

  • 单项分组
    若变量是离散型变量,且取值只有不多的几个
    做法:将变量的不同取值作为一组的组别,变量有多少个不同取值就划分多少组
  • 组距分组
    若变量是连续型变量, 或者是取值较多的离散型变量
    做法:将变量的全部取值按照其大小顺序划分成若干个不同的数值区间

1.1.2 变量数列

变量数列是指在对变量取值进行分组的基础上,将各组不同的变量值与其变量值出现的次数排列成的数列
由于对变量分组有单项分组和组距分组两种不同的方法,因而分组后形成的变量数列也有单项数列和组距数列两种

两个要素
  1. 由不同变量所划分的组,称为组别
  2. 各组变量值出现的次数,亦称频数

各组次数与总次数之比叫比率,又称频率

在变量数列中,由不同变量取值组成的组别表示变量的变动幅度,而频数和频率则表示相对应的变量值对其平均水平的作用程度。频数(频率)愈大的组所对应的变量值对其平均水平的作用也愈大 ;反之, 频数(频率)愈小的组所对应的变量值对其平均水平的作用也愈小。因此,在变量数列的条件下,当对变量值求算术平均数时,频数和频率均作为权数,频数看做为绝对权数,用f表示 ;频率看做为相对权数,用\frac{f}{\sum f}


1.2 分布中心的测度


1.3 离散程度的测度


1.4 偏度与峰度


1.5 两个变量的相关关系


字符ddd(简短文字添加代码框)
Tab dddd或四个空格(大段文字添加代码框,每行前添加)

@requires_authorization
def somefunc(param1='', param2=0):
    '''A docstring'''
    if param1 > param2: # interesting
        print 'Greater'
    return (param2 - param1 + 1) or None
class SomeClass:
    pass
>>> message = '''interpreter
... prompt'''
left center right
aaaa bbbbbb ccccc
a b c

内部嵌套

内部嵌套2

标题1

科学公式 TeX(KaTeX)
ddd

  • Item 1
  • Item 2
  1. Item 1
  2. Item 1
  3. Item 1
  • 嵌套列表1
    • 嵌套列表1a
    • 嵌套列表1b
    • 嵌套列表1ai
      • 嵌套列表1aix
  • 嵌套列表2

相关文章

网友评论

      本文标题:第一章 数据分析的基础

      本文链接:https://www.haomeiwen.com/subject/pugiwctx.html