美文网首页
Stata: 产生唯一数据编码的三种方法

Stata: 产生唯一数据编码的三种方法

作者: stata连享会 | 来源:发表于2019-08-02 18:08 被阅读0次


    作者:胡雨霄 (伦敦政治经济学院)

    Stata 连享会: 知乎 | 简书 | 码云 | CSDN

    Source: Three Ways to Create Unique Identifiers (Francis, 2012)

    2020寒假Stata现场班 (北京, 1月8-17日,连玉君-江艇主讲),「+助教招聘」

    2020寒假Stata现场班

    假设要处理的数据包含 3 个代码变量,household_ID, city_ID, 以及 state_ID。这 3 个变量分别表示不同个体所在的家庭、城市以及州的代码。若将这 3 个代码变量视为一个组合,那么组合内不同的数字排列,则分别代表了不同的个体。

    本推文将介绍如何在这种情况下,生成不同个体的唯一代码 (unique ID)。

    1. 数据生成

    首先设置 25,000 个观测值。

    clear 
    set obs 25000
    

    假设变量 household_ID 的取值范围为 [1, 50],变量
    city_ID 的取值范围为 [1, 20],变量 state_ID 的取值范围为 [1, 50]。

    *随机生成
    gen household_ID = ceil(runiform()*50)
    gen city_ID = ceil(runiform()*20)
    gen state_ID = ceil(runiform()*50)
    

    此外,生成变量 x1 x2 ,模拟在实际数据中我们感兴趣的变量 (variables of interest)。

    *随机生成
    gen x1 = rnormal()
    gen x2 = rnormal()
    

    数据结构如下所示:

    . list household_ID city_ID state_ID x1 x2 in 1/10
    
         +-------------------------------------------------------+
         | househ~D   city_ID   state_ID          x1          x2 |
         |-------------------------------------------------------|
      1. |       18        10         28    2.025588   -.1922264 |
      2. |       14        11          8    1.042631   -.0807038 |
      3. |        7        17         21    .2977124    .6150526 |
      4. |        2         4         28   -1.722132   -1.358765 |
      5. |       44         8         36   -.7291995    .0929139 |
         |-------------------------------------------------------|
      6. |       18        12         18    .8618261    .6687715 |
      7. |        4         4         29    -.239354    .6361541 |
      8. |       17        14          2     .516549   -.6399707 |
      9. |       28        15         19   -1.812016   -1.628398 |
     10. |       44         2         23   -1.015124   -.7855705 |
         +-------------------------------------------------------+
    

    2. 创建唯一代码 (Unique ID) 的两种方式

    2.1 用 egen 命令创建 Unique ID

    创建 Unique ID 最简单的方法就是使用 egen 命令。

    . egen ID = group(household_ID city_ID state_ID)
    . list in 1/10
    
         +---------------------------------------+
         | househ~D   state_ID   city_ID      ID |
         |---------------------------------------|
      1. |       18         28        10    6890 |
      2. |       14          8        11    5296 |
      3. |        7         21        17    2724 |
      4. |        2         28         4     469 |
      5. |       44         36         8   17091 |
         |---------------------------------------|
      6. |       18         18        12    6925 |
      7. |        4         29         4    1253 |
      8. |       17          2        14    6553 |
      9. |       28         19        15   10945 |
     10. |       44         23         2   16966 |
         +---------------------------------------+
    

    通过 egen 命令创建的 Unique ID 变量 ID 的排序方式与 sort household_ID city_ID state_ID 命令的排序方式相同,如下所示:

    . sort household_ID city_ID state_ID \\排序
    . list household_ID city_ID state_ID ID in 1/10
    
         +------------------------------------+
         | househ~D   city_ID   state_ID   ID |
         |------------------------------------|
      1. |        1         1          2    1 |
      2. |        1         1          5    2 |
      3. |        1         1          7    3 |
      4. |        1         1         10    4 |
      5. |        1         1         10    4 |
         |------------------------------------|
      6. |        1         1         11    5 |
      7. |        1         1         15    6 |
      8. |        1         1         15    6 |
      9. |        1         1         20    7 |
     10. |        1         1         21    8 |
         +------------------------------------+
    

    2.2 创建字符型 Unique ID

    另一种创建 Unique ID 变量的方式是创建一个字符 (string) 变量。虽然这种方式相对复杂,但所产生的 Unique ID 变量也更直接,容易识别。

    具体命令如下:

    . gen ID3 = "H" + string(household_ID,"%2.0f" ) + "C" + string(city_ID) + "S" + string(state_ID)
    . list household_ID city_ID state_ID ID3 in 1/10
    
         +-------------------------------------------+
         | househ~D   city_ID   state_ID         ID3 |
         |-------------------------------------------|
      1. |       18        10         28   H18C10S28 |
      2. |       14        11          8    H14C11S8 |
      3. |        7        17         21    H7C17S21 |
      4. |        2         4         28     H2C4S28 |
      5. |       44         8         36    H44C8S36 |
         |-------------------------------------------|
      6. |       18        12         18   H18C12S18 |
      7. |        4         4         29     H4C4S29 |
      8. |       17        14          2    H17C14S2 |
      9. |       28        15         19   H28C15S19 |
     10. |       44         2         23    H44C2S23 |
         +-------------------------------------------+
    

    3. 处理重复观测

    由于数据中存在重复观测值,创建的唯一代码 (Unique ID) 其实也并不唯一。

    当运行 sum ID 命令后,可以发现变量 ID 的最大取值为 19,757。这说明该样本一共包括 19,757 个不同的个体。duplicates report ID 的结果表明,在该数据集中,有 4,459 (19,757 - 15,298 = 4,459)个个体被重复观测了。在实证研究中,出现这一结果的原因可能是,不同变量的数据来源不同,从而导致有些个体被重复观测。

    . sum ID
    
        Variable |        Obs        Mean    Std. Dev.       Min        Max
    -------------+---------------------------------------------------------
              ID |     25,000    9890.821    5709.989          1      19757
    
    . duplicates report ID
    
    Duplicates in terms of ID
    
    --------------------------------------
       copies | observations       surplus
    ----------+---------------------------
            1 |        15298             0
            2 |         7528          3764
            3 |         1836          1224
            4 |          312           234
            5 |           20            16
            6 |            6             5
    --------------------------------------
    

    此时,应当确定一个处理 x1x2 的规则以确保每一个唯一代码 (Unique ID) 都唯一对应一个观测值。处理 x1x2 的命令如下。

    collapse (mean) mean_x1=x1 mean_x2=x2 (median) ///
                   med_x1=x1 med_x2=x2, by(ID)
    

    对于重复观测值,该命令运行后会生成新变量,保留每个 ID 重复观测值的平均值以及中位数。数据结构如下

    . list in 1/10
    
         +----------------------------------------------------+
         | ID     mean_x1     mean_x2      med_x1      med_x2 |
         |----------------------------------------------------|
      1. |  1    .1792767    .7344462    .1792767    .7344462 |
      2. |  2    1.093224   -.1823799    1.093224   -.1823799 |
      3. |  3   -.3094974    2.653506   -.3094974    2.653506 |
      4. |  4    .4993488    .8985389    .4993488    .8985389 |
      5. |  5   -.7429997   -.0464208   -.7429997   -.0464208 |
         |----------------------------------------------------|
      6. |  6    .4437077   -.5161228    .4437077   -.5161228 |
      7. |  7   -.7664803     1.15589   -.7664803     1.15589 |
      8. |  8      .59837    .1051743      .59837    .1051743 |
      9. |  9    .9568613   -.7659643    .9568613   -.7659643 |
     10. | 10   -.8682789   -1.468759   -.8682789   -1.468759 |
         +----------------------------------------------------+
    

    此外,处理后,可以发现数据中已经不存在重复观测值了。

    . duplicates report ID
    
    Duplicates in terms of ID
    --------------------------------------
       copies | observations       surplus
    ----------+---------------------------
            1 |        19757             0
    --------------------------------------
    

    连享会计量方法专题……

    关于我们

    • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。
    • 推文同步发布于 CSDN简书知乎Stata专栏。可在百度中搜索关键词 「Stata连享会」查看往期推文。
    • 点击推文底部【阅读原文】可以查看推文中的链接并下载相关资料。
    • 欢迎赐稿: 欢迎赐稿。录用稿件达 三篇 以上,即可 免费 获得一期 Stata 现场培训资格。
    • E-mail: StataChina@163.com
    • 往期精彩推文:一网打尽

    欢迎加入Stata连享会(公众号: StataChina)

    hRqjkOw)

    相关文章

      网友评论

          本文标题:Stata: 产生唯一数据编码的三种方法

          本文链接:https://www.haomeiwen.com/subject/fykrdctx.html