美文网首页
用stack取代excel的数据重整操作吧

用stack取代excel的数据重整操作吧

作者: StataPython数据分析 | 来源:发表于2020-11-02 20:53 被阅读0次

    本文作者:王子一,中南财经政法大学金融学院
    文字编辑:崔赵雯
    技术总编:余术玲

      有些时候大家从网页或者其他途径拿到的数据,作者为了展示数据的美观,通常会采用宽数据格式进行展示,那么什么叫做宽数据呢?pick一个小知识点:

      宽数据是相对于长数据而言的,长数据是指没有对数据集中的变量做细分,即变量中至少有一个变量中的元素值存在重复循环的情况,表格整体的形状为长方形,变量少而观察值多的数据形式,如下图: 图9.png   那么宽数据则是指对数据集中所有的变量进行了细分,各变量的值不存在重复循环的情况,数据集表现形式为变量多而观察值少的情况,以下图展示为例: 图10.png

      一般情况下,如果当我们拿到这种宽数据,并且需要对其进行转化使用分析时,小白同学通常就会选择用Excel进行手动操作,剪切粘贴剪贴粘贴...披星戴月...将多列数据归到一列中去,结果一眨眼!!你记不清处理到了哪里,两手抓虾只能重新来过。这时,Stata出现了一个简单的命令,简简单单的操作会给你带来极大的便利,它就是stack命令,一个可以完全取代Excel手动操作的数据重整命令,下面我们来展示它的风采。

      首先对stack命令进行简单的介绍:

       命令的格式:

    stack varlist [if] [in] , {into(newvars)|group(#)} [options]
    
    选项 描述
    into(newvars) 数据重整生成的新变量名称
    group(#) 重整变量组所需要的组数
    clear 从内存中删除数据集
    wide 将未在新变量中指定的变量保存在变量组中

    注释:into(newvars)和group(#)只能选择一个

      简单来说,如果我们想要将4个变量放在1列,就以下图4个变量为例: 图6.png

      那么,我们的代码如下:

    clear 
    input a b c d
    1 2 3 4
    5 6 7 8
    end
    stack a b c d, into(v1)
    
      最终运行结果如图: 图5.png

      同样地,如果我们将上面例子中的那4个变量放在2列里面,我们可以这样做:

    stack a b c d, into(v1 v2)
    

      或者:

    stack a b c d, into(v1-v2)
    

      再或者,也可以等价于我们将4个变量分为2组:

    stack a b c d,group(2)
    
      上述代码都符合我们的要求,最终运行结果如下图: 图7.png

      如果说,将4个变量划为3列呢,这是不可以的!因为3不是4的因数,所以不可以进行这样的重整数据。
      而wide的用法则是将未在新变量中指定的变量保存在变量组中,以上面的例子为例进行下面的操作:

    stack a b  a c, into(a bc) clear wide
    
      也就是将未在新变量("a","bc")中指定的变量("b","c")保存在变量组中,运行结果如图所示: 图8.png

      以上这些就是stack命令的基本操作啦。

      接下来我们分为多对一和多对多这两种形式为大家讲解stack的应用案例,大家也可以感受到其真正的用途在哪里。

    • 第一种形式:多对一

      很容易理解,多对一就是将多列数据划为一列,这在什么时候需要用到呢?比如说绘制图形之前,第一步需要将宽数据转换成长数据,我们以下面的例子为例。

      绘制班级同学身高(如下表)的直方图的前期准备工作,则需要将下图多列的形式转化为一列 ,如: 图3.png   通过stack命令转换,变为我们所需要的格式,具体运行步骤如下:
    cap mkdir d:/stack
    cd  d:/stack
    clear
    import excel 身高.xlsx
    stack A B C D E,into(y) clear      
    drop _stack  #这里的_stack是数据重整之后产生的一个变量  
    
      如下图: 图4.png

      接下来大家就可以进行其他数据处理操作了。

    • 第二种形式:多对多
      多列转化成多列的使用:我们以股票行情显示为例,比如说网站上为了方便,减小篇幅地展示当日所有股票的行情,会以8列为一单位分别展示出交易日期、证券代码、证券简称、前日收盘价、今日收盘价、涨跌幅度、成交金额及市盈率,然后9-16列会以同样的顺序展示股票行情,如下图: 图1.png

      这时如果你需要对这些股票数据进行分析,第一步需要整齐划一,将多列化为一列,以8列为一单位进行展示,以上面的例子为例,具体的运行步骤如下:

    insheet using 股票行情.csv,clear
    replace v3 = ustrfrom(v3,"gb18030",1) #命令ustrfrom可以将乱码形式转化为我们熟知的文字
    replace v11 = ustrfrom(v11,"gb18030",1)
    rename (ȯ ǰ ɽԪ  ӯ) (v2 v4 v7 v8) 
    stack v1-v16,into(x1-x8) clear
    drop _stack
    rename (x1-x8) (交易日期 证券代码 证券简称 前收 今收 升跌 成交金额 市盈率)
    save 股票行情1,replace
    
      展示效果如下图: 图2.png

      这样一个简单的stack命令就会将宽数据转化为长数据,转化成符合我们要求的数据形式,进而可以进行下一步的数据处理。
      以上就是今天分享的全部内容啦,简单的stack命令可以进行以上的数据堆栈处理,小小的内容有着大大的用处,大家一起动手操作起来,感受stack的便捷吧!
      本文用到的所有数据集均可通过后台回复stack获取,快去打开Stata试试看吧~

    相关文章

      网友评论

          本文标题:用stack取代excel的数据重整操作吧

          本文链接:https://www.haomeiwen.com/subject/ulfvvktx.html