美文网首页
关于虚拟变量的小结

关于虚拟变量的小结

作者: ProblemSolver | 来源:发表于2016-05-06 15:31 被阅读0次

虚拟变量是计量经济学研究中常用的用来反映定性因素变化的变量,例如季节变动、政策变动、宏观环境变化等等。之前对此有简单的了解,认为是非常简单直观的一种变量设定。直到最近写的论文中模型部分用到了虚拟变量,深入了解才发现问题多多。在充分搞清楚了“虚拟变量陷阱”之后,来适时地做一下总结,也算是温故知新。

虚拟变量的作用简单来说就是“数据分类器”,利用变量和变量的线性组合表示某一种特定的状态。
最容易让人感到比较难理解的就是“虚拟变量陷阱”了。首先是定义:如果模型中每个定性因素有m个相互排斥的类型, 且模型有截距项,则模型中只能引入m-1个虚拟变量, 否则会出现完全多重共线性,称为虚拟变量陷阱(dummy variable regression)
理解这个问题可以从两个角度出发:
1.理性角度:重点放在为什么会出现“多重共线性上”,利用线性代数的知识就很容易理解。贴上人大经济论坛上一位网友的回答:


2.感性角度:通常直观上理解最好的方式就是举个栗子。譬如,我想知道某一天某购物网站的访问量的变化是否跟这一天是周几有关,以及有怎样的关系。一周有7天,想研究变化肯定需要先设定一个基准。所以我们需要抽出7天中的一天来作为这个基准,以便其他6天能跟这一天进行比较。可以设定虚拟变量为D2,D3,...,D7,当值为1时分别表示这天是周二,周三,...,周日,而都为0时即表示这天是周一。回归方程中虚拟变量前的系数也即是各自与基准类别比较的结果,即虚拟变量的系数的解释与其基准类有关。如果给周一也设定一个虚拟变量D1,那么等于将其和其他六天放在了同一个标准上,无法进行比较,而且当值为0时也没有任何意义,也无从得出虚拟变量的系数。

还有一个要注意的点:若模型包含多个定性变量,且每个定性变量有多种分类,则引入模型的虚拟变量将消耗大量的自由度,故应权衡进入模型中虚拟变量的个数以免超过样本观察值的个数。不过虚拟变量个数超过样本观测个数这种情况应该不太容易出现吧。。。0.0

暂时总结这么多,后续有继续学习的地方再补充~

相关文章

  • 关于虚拟变量的小结

    虚拟变量是计量经济学研究中常用的用来反映定性因素变化的变量,例如季节变动、政策变动、宏观环境变化等等。之前对此有简...

  • Stata系列-关于虚拟变量

    什么时候需要引入虚拟变量?如果研究中使用了“定性数据”或“分类数据”,此时就需要引入“虚拟变量” 引入多少个虚拟变...

  • 哑变量/虚拟变量

    什么是虚拟变量(哑变量)? 虚拟变量又称哑变量,是人为设定的用于将分类变量引入回归模型中的方法。 为什么要使用虚拟...

  • 数据分析中的哑变量问题,该怎么处理?

    什么是虚拟变量? 虚拟变量又称哑变量,是人为设定的用于将分类变量引入模型中的方法。 为什么要使用虚拟变量 在回归分...

  • Python学习笔记-3群18组-杜杜狼-2017.7.24

    Lesson 26 虚拟变量 虚拟变量又叫哑变量和离散特征编码,用来表示分类变量,非数量因素可能产生的影响 离散特...

  • 虚拟变量

    虚拟变量 ( Dummy Variables) 又称虚设变量、名义变量或哑变量,用以反映质的属性的一个人工变量,是...

  • Java 相关

    线程池 并发类 HotSpot 虚拟机小结

  • stata学习日记11

    虚拟变量 上图

  • 一个疑惑:解释变量中类别变量的处理

    我们知道,当分类自变量的类别大于两个的时候,需要建立一组虚拟变量(哑变量)来代表变量的归属性质。一般虚拟变量的数目...

  • #学习小结# 虚拟化技术入门 - 阿里云大学

    学习小结: 虚拟化技术入门 - 阿里云大学1.1 弹性计算1.2 虚拟化技术概述1.3. CPU 虚拟化1.4.内...

网友评论

      本文标题:关于虚拟变量的小结

      本文链接:https://www.haomeiwen.com/subject/imrjrttx.html