学习材料来源:《应用stata做统计分析》 劳伦斯·汉密尔顿
一、数据管理
感觉把原始数据处理成能够用来做回归的数据集是最难也最重要的一步了,之后只要按部就班回归就行。
(二)定义数据的子集:in 和if 选择条件
(1)in
list in 1/20 列出第1至第20条观测案例。
用字母l(小写字母L)标识最后一个案例,-4代表从最后开始倒数的第4个。列出加拿大人口最多的4个地方:
sort pop
list place pop in -4/l
(2)运算符
== 等于
(一定要写两个等号,表示一种逻辑检验,表示“是否左侧的值与右侧的值相等”;对于stata而言,一个等号,代表“让左侧的值与右侧相同”)
! = 不等于(也可以用~ =)
只有==和!=对字符串变量有意义,且对字符串变量应用if选择条件时,将目标值括在英文双引号中。
summarize if place != "Canada"
<小于 <= 小于等于
>大于 >= 大于等于
(3)if 选择包含两个或更多关系的逻辑运算符
& 和
| 或(就是一竖)
! 否
采用括号可以定义多重运算符的优先顺序。列出所有失业率低于9或男性预期寿命高于75.4和女性预期寿命高于81.4的地方。
list if unemp < 9 | (mlife>=75.4 & flife>=81.4)
(4)关于缺失值
缺失值通常被当作非常大的正值,假设我们分析一个政治选举的民意测验结果。下列命令就会将变量vote列表,不仅是按照预想包括了65岁以上的人,而且还会包括所有年龄值缺失者:
tabulate vote if age > 65
因此我们不得不在if表达式中对此加以处理。
tabulate vote if age > 65 & age <.
这里的.是英文句号,代表缺失值。
网友评论