美文网首页
第一章 数据分析的基础

第一章 数据分析的基础

作者: sunsaint | 来源:发表于2019-11-28 22:59 被阅读0次

    数据分析的前提是数据的搜集与加工处理

    1.1 数据分组与变量数列

    1.1.1 数据分组

    数据分组 就是对某一变量不同取值,按照其自身变动特点和研究需要划分成不同的组别,以便更好地研究该变量分布特征及变动规律

    变量

    类型

    • 离散变量:指变量值可以按一定顺序一一列举,通常以整数位取值的变量
    • 连续变量:在一定区间内可以任意取值的变量叫连续变量, 其数值是连续不断的, 相邻两个数值可作无限分割,即可取无限个数值。

    分组

    • 单项分组
      若变量是离散型变量,且取值只有不多的几个
      做法:将变量的不同取值作为一组的组别,变量有多少个不同取值就划分多少组
    • 组距分组
      若变量是连续型变量, 或者是取值较多的离散型变量
      做法:将变量的全部取值按照其大小顺序划分成若干个不同的数值区间

    1.1.2 变量数列

    变量数列是指在对变量取值进行分组的基础上,将各组不同的变量值与其变量值出现的次数排列成的数列
    由于对变量分组有单项分组和组距分组两种不同的方法,因而分组后形成的变量数列也有单项数列和组距数列两种

    两个要素
    1. 由不同变量所划分的组,称为组别
    2. 各组变量值出现的次数,亦称频数

    各组次数与总次数之比叫比率,又称频率

    在变量数列中,由不同变量取值组成的组别表示变量的变动幅度,而频数和频率则表示相对应的变量值对其平均水平的作用程度。频数(频率)愈大的组所对应的变量值对其平均水平的作用也愈大 ;反之, 频数(频率)愈小的组所对应的变量值对其平均水平的作用也愈小。因此,在变量数列的条件下,当对变量值求算术平均数时,频数和频率均作为权数,频数看做为绝对权数,用f表示 ;频率看做为相对权数,用\frac{f}{\sum f}


    1.2 分布中心的测度


    1.3 离散程度的测度


    1.4 偏度与峰度


    1.5 两个变量的相关关系


    字符ddd(简短文字添加代码框)
    Tab dddd或四个空格(大段文字添加代码框,每行前添加)

    @requires_authorization
    def somefunc(param1='', param2=0):
        '''A docstring'''
        if param1 > param2: # interesting
            print 'Greater'
        return (param2 - param1 + 1) or None
    class SomeClass:
        pass
    >>> message = '''interpreter
    ... prompt'''
    
    left center right
    aaaa bbbbbb ccccc
    a b c

    内部嵌套

    内部嵌套2

    标题1

    科学公式 TeX(KaTeX)
    ddd

    • Item 1
    • Item 2
    1. Item 1
    2. Item 1
    3. Item 1
    • 嵌套列表1
      • 嵌套列表1a
      • 嵌套列表1b
      • 嵌套列表1ai
        • 嵌套列表1aix
    • 嵌套列表2

    相关文章

      网友评论

          本文标题:第一章 数据分析的基础

          本文链接:https://www.haomeiwen.com/subject/pugiwctx.html