美文网首页
Stata: 因变量是类别变量时采用什么方法估计?

Stata: 因变量是类别变量时采用什么方法估计?

作者: stata连享会 | 来源:发表于2019-12-08 00:45 被阅读0次

    Stata连享会   计量专题 || 精品课程 || 简书推文 || 公众号合集

    点击查看完整推文列表

    2020寒假Stata现场班

    北京, 1月8-17日,连玉君-江艇主讲

    image

    2020连享会-文本分析与爬虫-现场班

    西安, 3月26-29日,司继春-游万海 主讲;  (附助教招聘)

    image

    问题背景

    多数情况下,我们的被解释变量都是连续变量,但也有些情况下,我们会对分类变量感兴趣,比如,出门时选择何种交通工具?大学毕业时是否继续读研?等等。那么,此时,该用何种模型来分析比较合适呢?

    分类变量可以被进一步分为多种类型,要根据情况来选择合适的模型。

    0/1 变量

    例如,是否结婚? 是否生二胎? 是否买越野车 ……,被解释变量都是非此即彼的二元选择问题。此时,最为常用的是 LogitProbit 模型,二者虽然形式上有差异,在系数解释、概率预测方面的差异却很小。

    若使用 Stata 进行估计,语法也很简单。

    sysuse auto, clear 
    logit foreign price weight mpg  // Logit 估计
    probit foreign price weight mpg // Probit 估计
    

    更为详细的介绍,请参阅:

    类别数目较小的分类变量

    例如,被解释变量为「y = 出行交通工具选择」:1 步行;2 电动车;3 汽车;4 地铁。显然,各个类别虽然用数字加以区分,但数字之间并无大小区分,只起到了「标记」作用。

    类似的例子还有很多,例如:

    • y = 上市公司的融资方式」:1 内部融资;2 债务融资;3 权益融资 (这是比较规范的例子)
    • y = 上市公司的融资方式」:1 内部融资;2 银行贷款;3 公司债券;4 定向增发;5 公开二次发行 (这是比较糟糕的例子)
    • y = 高管激励方式=」:1 货币薪酬;2 股票期权;3 绩效奖金

    此时可以使用 多元 Logit/Probit 模型 (Multinomial Logit/Probit regression) 进行估计,对应的 Stata 命令是 mlogitmprobit。Stata 帮助文件和电子手册提供了详细的范例和说明。

    本质上,可以把多元 Logit 视为多个二元 Logit,同时附加一些约束条件,例如,要求各种选择的概率之和为 1,且每一组二元 Logit 模型的干扰项之间彼此存在一定相关性。

    如下是相关参考资料:

    类别数目较多的情形

    类别数较多时,比如,超过 10 组甚至 20 组,直接进行分析的难度较大。退一步来讲,此时组间的差异分析也不容易进行,经济含义比较难以说清楚。

    一个比较稳妥的处理方式是,根据相关的理论和经验分析对现有的分类进行适当合并,使分析对象相对集中一些。

    例如,可以把「A. 银行短期贷款;B. 银行长期贷款;C. 商业票据;D. 可赎回债券」等融资方式都归类为「1. 债务融资」,进而与「2. 内部融资」和「3.权益融资」放在一起进行对比分析。 从理论上讲,上述小类 (A, B, C, D) 虽然也有差别,当相对于大类 (1, 2, 3) 之间的差异而言,这些差别的重要性就会大大降低。从大类层面进行分析便于我们抓住问题的本质。

    具有序别特征的分类变量

    有时候,我们是无法明确区分「类别变量」和「序别变量」的。例如,「HY - 幸福感」 —— 取值为 1-5,5 代表“非常幸福”。

    你可以把 HY 视为类别变量,使用 mlogit 模型来分析 HY=5HY=4 的人群有哪些差别。此时,数字 45 只是用来标记两类人群的,并不存在 4<5 的关系。

    你也可以把 HY 视为序别变量,用 有序 (Ordered) Logit / Probit 分析幸福感的提升 (由 1 → 2 或 4 → 5) 受哪些因素的影响。此时,4<5

    相对而言,后者用的多一些,但也有文章同时从上述两个角度进行分析,因为二者并不存在孰优孰劣的问题。

    上述两个模型的 Stata 命令为 mlogitologit。如下是两个不错的例子:

    除了上述提到的 Logit / Probit 族模型外,在某些情况下,也会考虑使用 计数模型 (Count Data model, help poisson, help nbreg) 来分析诸如 专利个数交通违章次数 等有「计数」特征的变量。

    参考资料

    关于我们


    欢迎加入Stata连享会(公众号: StataChina)

    相关文章

      网友评论

          本文标题:Stata: 因变量是类别变量时采用什么方法估计?

          本文链接:https://www.haomeiwen.com/subject/evuugctx.html