SAS编程-Table：最早/最晚时间获取

作者: 野藤_ | 来源:发表于2022-04-25 19:28 被阅读0次

前言

蔡志忠老师在一次访谈中说过这样的话：(来源：《生命·觉者》梁冬对话蔡志忠)

做出来比期待的好，就会更好；做出来比期待的快，就会更快。越快越好，又快又好，你就会达到第三种状态，你的成本最低，品质最高，效益最好。当你达到这样的时候，就再也没有敌人。

临床试验中的SAS编程，没有太过复杂的内容，工作一两年基本会接触到，没什么太大的难度。在都能做出来的情况下，又快又好地做出来，就是追求的目标了。

所以，另开一个栏目，记录一下TFL的编程思路，提高下一次处理类似问题的效率。先从一个简单的表入手：

具体实例

T14-1.2

Shell内容要求的很明确，输出几个关键点的日期。1个最早，3个最晚，这就是一个求最值的问题。

数值型变量求最值，常用也就两种方法。第一，Data步排序后，依靠first./last.取组内最早或最晚的记录；第二，SQL使用聚合函数min/max取组内的最值。

输出涉及3个变量，4种形式，如果使用Data步话，至少要进行3次排序；使用SQL话，一段SQL代码就可以实现。所以，决定采用SQL语句。

具体编程

首先，从外部笔记本里，复制一下我的QC “5段论”：

***1. Create formats for output;
***2. Get data for analysis;
***3. Calculate statistics;
***4. Create dataset for QC;
***5. Compare;

也建议大家，自己也整理一下编程框架，将完整的编程划分几部分，分批处理。这样做，不说效率提高不少，单是心里就会舒服、有谱不少。某年某位日本马拉松选手，就是靠将赛程分段化处理，爆冷门获得冠军的。借鉴成功者的经验，吃不了亏。

先从第2步获取数据开始，为什么不从第一步开始呢？因为我也不知道将要做出的数据集里有啥值。

***2. Get data for analysis;
data adsl;
  set adam.adsl;
  where fasfl = "Y";
run;

前面的图片没有显示，正常输出TFL的Title/Footnotes里都会分析人群的说明的，这一点要注意，人群选错了，表做得再漂亮也是错的。

接下来，看第3步。

***3. Calculate statistics;
**Get the Date;
proc sql noprint;
  create table final1 as
    select  min(enrldt) as dt1, max(enrldt) as dt2, max(trtedt) as dt3, max(eosdt) as dt4
  from adsl;
quit;

有人可能觉得，选人群直接在SQL里加个where语句不是省了一步，更简洁吗？确实是这样，我只能说我这样做是为了保持“5段论”的好习惯。

输出结果如下：

Final1

输出结果是数字，干脆在SQL中处理下，直接输出字符时间：

***3. Calculate statistics;
**Get the Date;
proc sql noprint;
  create table final1 as
    select  put(min(enrldt), date9.) as dt1, put(max(enrldt), date9.) as dt2, put(max(trtedt), date9.) as dt3, put(max(eosdt), date9.) as dt4
  from adsl;
quit;

输出结果：

Final1

输出成字符就好看很多了。写到这里有一点担忧，万一变量有缺失值怎么办？程序是不是要改进下？这种情况应该如何应对呢？

空想是没有意义的，给取最小值的变量，加个空值，测试下结果。

***2. Get data for analysis;
data adsl;
  set adam.adsl;
  where fasfl = "Y";
  if _n_ = 1 then enrldt = .;
run;

***3. Calculate statistics;
**3.1 Get the Date;
proc sql noprint;
  create table final1 as
    select  put(min(enrldt), date9.) as dt1, put(max(enrldt), date9.) as dt2, put(max(trtedt), date9.) as dt3, put(max(eosdt), date9.) as dt4
  from adsl;
quit;

结果如下：

Final1

出乎意料，空值居然没有显示出来？难道SQL中函数min自动排除空值？去查了下SAS文档：

Min

这真是惊喜和意外啊，直接省得判断了。至此，Table需要的数据已经获取，后面是整理成对应Shell的布局。

显然，横着放的，要先转置成竖着放。

**3.2 Transpose results;
proc transpose data = final1 out = final2;
  var dt1-dt4;
run;

输出结果：

Final2

这就跟目标数据结构类似了，同时第一步Format格式设置也就有了对象：

***1. Create formats for output;
proc format;
  value $dt
    "dt1" = "First subject enrollment"
    "dt2" = "Last subject enrollment"
    "dt3" = "Last subject end of investigational product"
    "dt4" = "Last subject end of study"
  ;
run;


***3. Calculate statistics;
**3.3 Set layout for output;
data final3;
  set final2;
  row_num = _n_;

  length c1 c2 $200;
  c1 = put(_name_, dt.);
  c2 = col1;

  keep row_num c1 c2;
run;

结果如下：

Final3

Table主体内容输出后，QC的时候还需要考虑Header的内容：

***4. Create dataset for QC;

**4.1 Create dataset for header;
data header;
  row_num = 0;

  length c1 -c2 $200;
  c1 = "Description of Key Dates";
  c2 = "Date";
run;

**4.2 Create dataset for QC;
data qc;
  set header final3;
run;

QC

这个输出结果，应该跟公司宏抓取RTF的结构是一致的了。

总结

这张Table的关键是取最值方法的选择，与Data步相比，SQL在数据处理上确实是更具灵活性。

感谢阅读！若有疑问，欢迎评论区交流！

网友评论

本文标题：SAS编程-Table：最早/最晚时间获取

本文链接：https://www.haomeiwen.com/subject/fjtqyrtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

SAS编程-Table：最早/最晚时间获取

前言

具体实例

具体编程

总结

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读