美文网首页
SAS编程-Table:最早/最晚时间获取

SAS编程-Table:最早/最晚时间获取

作者: 野藤_ | 来源:发表于2022-04-25 19:28 被阅读0次

    前言

    蔡志忠老师在一次访谈中说过这样的话:(来源:《生命·觉者》梁冬对话蔡志忠)

    做出来比期待的好,就会更好;做出来比期待的快,就会更快。越快越好,又快又好,你就会达到第三种状态,你的成本最低,品质最高,效益最好。当你达到这样的时候,就再也没有敌人。

    临床试验中的SAS编程,没有太过复杂的内容,工作一两年基本会接触到,没什么太大的难度。在都能做出来的情况下,又快又好地做出来,就是追求的目标了

    所以,另开一个栏目,记录一下TFL的编程思路,提高下一次处理类似问题的效率。先从一个简单的表入手:

    具体实例

    T14-1.2

    Shell内容要求的很明确,输出几个关键点的日期。1个最早,3个最晚,这就是一个求最值的问题

    数值型变量求最值,常用也就两种方法。第一,Data步排序后,依靠first./last.取组内最早或最晚的记录;第二,SQL使用聚合函数min/max取组内的最值

    输出涉及3个变量,4种形式,如果使用Data步话,至少要进行3次排序;使用SQL话,一段SQL代码就可以实现。所以,决定采用SQL语句。

    具体编程

    首先,从外部笔记本里,复制一下我的QC “5段论”:

    ***1. Create formats for output;
    ***2. Get data for analysis;
    ***3. Calculate statistics;
    ***4. Create dataset for QC;
    ***5. Compare;

    也建议大家,自己也整理一下编程框架,将完整的编程划分几部分,分批处理。这样做,不说效率提高不少,单是心里就会舒服、有谱不少。某年某位日本马拉松选手,就是靠将赛程分段化处理,爆冷门获得冠军的。借鉴成功者的经验,吃不了亏。

    先从第2步获取数据开始,为什么不从第一步开始呢?因为我也不知道将要做出的数据集里有啥值

    ***2. Get data for analysis;
    data adsl;
      set adam.adsl;
      where fasfl = "Y";
    run;
    

    前面的图片没有显示,正常输出TFL的Title/Footnotes里都会分析人群的说明的,这一点要注意,人群选错了,表做得再漂亮也是错的

    接下来,看第3步。

    ***3. Calculate statistics;
    **Get the Date;
    proc sql noprint;
      create table final1 as
        select  min(enrldt) as dt1, max(enrldt) as dt2, max(trtedt) as dt3, max(eosdt) as dt4
      from adsl;
    quit;
    

    有人可能觉得,选人群直接在SQL里加个where语句不是省了一步,更简洁吗?确实是这样,我只能说我这样做是为了保持“5段论”的好习惯。

    输出结果如下:

    Final1

    输出结果是数字,干脆在SQL中处理下,直接输出字符时间:

    ***3. Calculate statistics;
    **Get the Date;
    proc sql noprint;
      create table final1 as
        select  put(min(enrldt), date9.) as dt1, put(max(enrldt), date9.) as dt2, put(max(trtedt), date9.) as dt3, put(max(eosdt), date9.) as dt4
      from adsl;
    quit;
    

    输出结果:

    Final1

    输出成字符就好看很多了。写到这里有一点担忧,万一变量有缺失值怎么办?程序是不是要改进下?这种情况应该如何应对呢?

    空想是没有意义的,给取最小值的变量,加个空值,测试下结果。

    ***2. Get data for analysis;
    data adsl;
      set adam.adsl;
      where fasfl = "Y";
      if _n_ = 1 then enrldt = .;
    run;
    
    ***3. Calculate statistics;
    **3.1 Get the Date;
    proc sql noprint;
      create table final1 as
        select  put(min(enrldt), date9.) as dt1, put(max(enrldt), date9.) as dt2, put(max(trtedt), date9.) as dt3, put(max(eosdt), date9.) as dt4
      from adsl;
    quit;
    

    结果如下:

    Final1

    出乎意料,空值居然没有显示出来?难道SQL中函数min自动排除空值?去查了下SAS文档:

    Min

    这真是惊喜和意外啊,直接省得判断了。至此,Table需要的数据已经获取,后面是整理成对应Shell的布局。

    显然,横着放的,要先转置成竖着放。

    **3.2 Transpose results;
    proc transpose data = final1 out = final2;
      var dt1-dt4;
    run;
    

    输出结果:

    Final2

    这就跟目标数据结构类似了,同时第一步Format格式设置也就有了对象:

    ***1. Create formats for output;
    proc format;
      value $dt
        "dt1" = "First subject enrollment"
        "dt2" = "Last subject enrollment"
        "dt3" = "Last subject end of investigational product"
        "dt4" = "Last subject end of study"
      ;
    run;
    
    
    ***3. Calculate statistics;
    **3.3 Set layout for output;
    data final3;
      set final2;
      row_num = _n_;
    
      length c1 c2 $200;
      c1 = put(_name_, dt.);
      c2 = col1;
    
      keep row_num c1 c2;
    run;
    

    结果如下:

    Final3

    Table主体内容输出后,QC的时候还需要考虑Header的内容:

    ***4. Create dataset for QC;
    
    **4.1 Create dataset for header;
    data header;
      row_num = 0;
    
      length c1 -c2 $200;
      c1 = "Description of Key Dates";
      c2 = "Date";
    run;
    
    **4.2 Create dataset for QC;
    data qc;
      set header final3;
    run;
    
    
    QC

    这个输出结果,应该跟公司宏抓取RTF的结构是一致的了。

    总结

    这张Table的关键是取最值方法的选择,与Data步相比,SQL在数据处理上确实是更具灵活性。

    感谢阅读!若有疑问,欢迎评论区交流!

    相关文章

      网友评论

          本文标题:SAS编程-Table:最早/最晚时间获取

          本文链接:https://www.haomeiwen.com/subject/fjtqyrtx.html