读取分隔符数据文件除了使用data
步的infile
语句之外,proc import
过程步也是非常常用且好用的工具。
import过程
import
过程的一般格式为:
proc import datafile = "filename" out =dataset options ;
import
过程有许多选项
,下面我们一起学习常用的一些选项。
- DBMS=选项
如果文件没有合适的类型,DBMS=
选项是import
过程步必须的选项,用以指定文件的类型。
扩展名 | DBMS= |
---|---|
.csv | CSV |
.txt | TAB |
上述2个以外 | DLM |
EXCEL | XLSX或者xls |
- REPLACE选项
再次读入数据是否覆盖上次的,添加REPLACE
选项表示覆盖。
上述两个选项一般使用格式:
proc import datafile = "file" out = dataset DBMS = "xlsx" REPLACE;
可选选项
- DATAROWS= n
从第几行开始读取数据,默认第1
行。
- GETNAMES= NO
是否获取列名(变量名)
。
- GUESSINGROWS= n
使用多少行来确定变量类型
,默认20行
。
这几个可选选项的一般使用格式:
proc import datafile = "file" out = dataset DBMS = "xlsx" REPLACE;
GETNAMES= NO;
DATAROWS= 2;
GUESSINGROWS= 1000;
run;
读取EXCEL文件时的一些选项
- sheet=选项
如果一个EXCEL
文件包含多个sheet
,可以通过sheet= “sheetname”
指定要读取的特定sheet
。
- range=选项
也可以在一个sheet
中读取特定的区域的数据
,通过指定sheet
名和目标区域左上角和右下角的单元格,range= “sheetname$UL:LR”
。
- mixed选项
有时候一列数据包含字符型数据和数值,数值会被转换为缺失值,添加mixed = YES
选项,可以使数值型数据转换为字符型。
以上就是import
步比较常用的一些选项了。
网友评论