美文网首页临床研究数据统计
SAS编程:导入EXCEL时,Proct Import与Libn

SAS编程:导入EXCEL时,Proct Import与Libn

作者: 野藤_ | 来源:发表于2022-02-15 13:28 被阅读0次

    如果在工作中,需要将保存在EXCEL的数据集内容导入到SAS,并进行变量的属性处理,一般会涉及Import过程步。这过程可能会遇到一些导入问题,以下是我梳理的相关内容。

    1. EXCEL导入数据集

    EXCEL内容导入SAS数据集,常用的方法是Import过程步,为了文件处理方便,我先把EXCEL文件地址设为工作路径。

    **Set work space;
    %sysexec cd "E:\08_SAS\01_import";
    

    EXCEL文件中,页面如下,第1行为变量Lable,第2行为变量名称,之后就是具体的观测数。

    DM

    使用Import过程步,进行初步导入。从结果中可以看出,所有的数据都是从字符读入,并且日期格式也是读成了数字。关于日期数字问题,这里不进一步解释,感兴趣的读者可以参考SAS编程:关于EXCEL时间变量导入SAS数据集的问题

    **Import EXCEL;
    proc import datafile="test.xlsx"  /*or datafile="E:\08_SAS\01_import\test.xlsx"*/
        out=DM1 dbms=xlsx replace;
        sheet = "DM";
        getnames = no;
    run;
    
    
    DM1

    2. 特定EXCEL记录导入数据集

    2.1 range = 选项

    虽然字符格式后续也方便处理成想要的属性,但是SAS导入的时候也方便自动处理。这里我们可以直接将第2行的信息读取成变量名称,第3行开始读取成SAS记录数。导入的数据集,自动将全部为数字的列转化为数值变量。(关于range=选项,可以参考SAS官方文档SAS Help Center: Microsoft Workbook Files)。

    **Import EXCEL 2;
    proc import datafile="test.xlsx"
        out=DM2 dbms=xlsx replace;
        range="DM$A2:"n;
        getnames = yes;
    run;
    
    DM2
    2.2 sheet = 选项能否实现?

    处理读入EXCEL记录时,有些读者可能会考虑使用sheet = "DM";datarow = 2以及getnames = yes;进行实现从第2行读入并将第2行读取为变量名称。事实上,这样无法实现想要的效果

    虽然,语句sheet = "DM";range="DM$:"n;是等价的,我们可以正常导入sheet页面中所有的信息,但是语句getname =指定IMPORT过程,是否从输入文件第一行的数据值生成SAS变量名。而数据集所需要的变量名称保存在第2行,所以无法用来直接命名。(SAS Help Center: Syntax: PROC IMPORT GETNAMES Statement)

    不过,语句datarow = 3可以读取所需要的数据记录。

    **Import EXCEL 3;
    proc import datafile="test.xlsx"
        out=DM3 dbms=xlsx replace;
        sheet = "DM";
        datarow = 3;
        getnames = yes;
    run;
    
    DM3

    这一点与Data步中,whereif语句筛选记录的对比关系类似。where语句筛选进入数据集处理的观测记录;而if语句在纳入所有观测记录后,再进行筛选

    Import过程步中,语句range="sheet$XX:XX"n筛选好进入SAS数据集的EXCEL记录;而语句datarow = n;,是在进入SAS数据集的记录中,进行筛选

    编程中,使用range语句筛选记录,更精准一些。

    3. Libname语句使用注意点

    在这篇文章中,就不介绍批量设置变量Label的过程。在设置单个数据集属性后,需要批量导入EXCEL Sheet内容。批量处理的关键是,获取所有Sheet的名称。这里可以,通过将EXCEL设置为SAS逻辑库来实现,代码如下。目前,test.xlsx文件中有两个sheet(DM,VS)。

    libname tmp excel "test.xlsx";
    
    Library

    导入的数据集内容,是sheet中的所有信息。信息保存到逻辑库中,我们就可以通过SAS字典,来获取EXCEL中sheet名称和数目信息,并把这两个信息保存到宏变量&sheetnam&sheetnum中。

    关于Proc SQL如何将一整列变量值或一行记录值保存到宏变量,可以参考SAS编程:Proc SQL生成宏变量时INTO子句的使用

    *Get sheet names and sheet num and save them into macro vars;
    proc sql noprint;
            create table tmp1 as
                select  distinct scan(memname, 1, "$") as name, count(distinct scan(memname, 1, "$") )  as num
            from dictionary.tables
            where libname = "TMP";
    
        select  distinct scan(memname, 1, "$"), count(distinct scan(memname, 1, "$") )  into: sheetnam separated by "!" , :sheetnum
            from dictionary.tables
            where libname = "TMP";
    quit;
    
    name and num

    经过一番整理后,批量处理Sheet的程序基本完善,但是批量使用Import过程步时,会出Error。

    proc import datafile="test.xlsx"
        out=DM dbms=xlsx replace;
        sheet = "DM";
        getnames = no;
    run;
    
    Error

    检查后发现原因:逻辑库在调用EXCEL时,Import过程步无法读取EXCEL信息。这个问题取消逻辑库的分配可以解决。

    在日常编程中,如果需要临时使用逻辑库,使用完毕后可以立即释放,避免后续调用出现问题。

    libname tmp excel "test.xlsx";
    

    结语

    本文介绍了使用Proct Import将EXCEL文件导入SAS数据集时,记录筛选、命名的问题,建议使用range语句筛选记录,避免偏误。对于临时逻辑库,建议使用完毕后立即释放,避免后续调用文本出现问题。

    感谢阅读!若有疑问,欢迎评论区交流!

    相关文章

      网友评论

        本文标题:SAS编程:导入EXCEL时,Proct Import与Libn

        本文链接:https://www.haomeiwen.com/subject/qflflrtx.html