1. 前言
在目前工作中,用stata清洗及分析数据,感觉很顺滑。无奈不少同学因为help文件里的英文望而却步。
带着学习和分享的目的,根据工作经验,给大家整理一些常用以及不太常用但很有用的命令,并对该命令的help文件进行有侧重的详解。
2. 命令及获取
describe
:描述数据,系统自带命令
3. 描述
describe
: 生成内存中的数据或stata数据的摘要,对数据情况进行描述。最短可缩写成d。
4. 语法
*描述内存中的数据
describe [varlist] [, memory_options]
*描述文件中的数据
describe [varlist] using filename [, file_options]
- [,]:中括号里的为额外选项命令,按需求添加,而添加选项记得加英文逗号,
- filename(文件名):如果语法中只有文件名,则默认文件格式为.dta;如果文件名中有空格,记得用双引号""将该目录名字括起来。
describe using
中的varlist与一般的varlists的不同:
- 前者不可以缩写变量名,例如,变量名为displacement时,需要写displacement而不是displ,但是可以用displ~表达。
- 前者不可以指定变量范围,例如,age-income,则会报错。
5. 选项
memory_options
的选项:
simple
:添加该选项,只显示出变量名。本选项与其他选项不可同时使用。最短可缩写成si。short
:添加该选项,不显示每个变量的信息,只显示数据所在路径,个案数,变量数,数据大小,排序依据。最短可缩写成s。fullnames
:添加该选项,可以显示每个变量名的全名,因为默认是当变量名超过15个字母就会显示不全。该选项不能和describe using
命令使用。最短可缩写成f。numbers
:添加该选项,显示变量序号,而且,当变量名超过8个字母时会被缩写。numbers
和fullnames
不能同时使用,而且,numbers
不能和describe using
命令使用。最短可缩写成n。replace
:添加该选项,将内存中的数据变为各个变量的描述情况。在本选项的基础上,再添加clear
,可以替换内存中的数据。本选项不可和上述选项结合使用。varlist
:添加该选项,除了通常存储的结果外,还会存储r(varlist)
和r(sortlist)
。最短可缩写成varl。file_options
的选项:
short
:添加该选项,不显示每个变量的信息,只显示数据所在路径,个案数,变量数,数据大小,排序依据。最短可缩写成s。simple
:添加该选项,只显示出变量名。本选项与其他选项不可同时使用。最短可缩写成si。varlist
:添加该选项,除了通常存储的结果外,还会存储r(varlist)
和r(sortlist)
。最短可缩写成varl。若变量数太多,可能会报错。
6. 举例
*调入系统自带数据auto.dta
sysuse auto,clear
*描述数据,内存中数据未变
describe
描述数据.png
*描述数据,变量名显示全,内存中数据未变
describe,fullnames
描述数据fullnames.png
*描述数据,不显示每个变量的信息,内存中数据未变
describe,short
描述数据short.png
*将描述结果保存为数据,内存中数据改变
describe,replace clear
描述数据replace.png
描述数据replace数据.png
*描述auto数据中r开头的变量,并将描述结果保存为数据,内存中数据改变
d r*,replace clear
描述数据replace部分数据.png
*描述网站上states数据的情况,同时不改变内存中的数据
describe using http://www.stata-press.com/data/r15/states
描述数据using.png
7. 菜单
Data > Describe data > Describe data in memory or in a file
8. 存储的结果
describe
存储下列结果:
r(N)
:个案数r(k)
:变量数r(width)
:数据宽度r(changed)
:自上次保存以来数据已更改的标志r(varlist)
:添加选项varlist后,数据集中的变量r(sortlist)
:添加选项varlist后,数据排序依据的变量
describe,replace
不存储结果
9. 补充
- 突然发现,
describe,replace
挺实用的。
网友评论