美文网首页计量经济学计量经济学Stata计量经济学
1.经济数据缺失值的简单处理(笔记)

1.经济数据缺失值的简单处理(笔记)

作者: LMingP | 来源:发表于2018-12-18 22:53 被阅读15次

我的专业方向在写论文的时候用的大都是省级或者地级市的经济数据,一般这些数据都是从年鉴、国民经济社会发展统计公报、各类统计年报或者政府网站上获取,但是总会遇到统计不全导致的数据缺失问题。比如环境污染相关指标、专利申请授权数等,对于这些缺失数据,我的补齐方法一般是以下几种:

一、合并不同来源的数据

  • 结合几个不同的数据来源,选取数据的并集。对于重复数据优先选择来源较为权威的数据,或者结合前后年份和变化趋势选择较为合理的一个。
  • 找数据真的很艰难,经常找着找着心态就崩溃了,但这是做经济实证中势必要面对的问题。作为一个学生,自己的文章要自己动手去找数据,为了得到较为准确的结果、为了这批数据以后的可重复使用性,每一个数据的准确性都要让自己安心。

二、简单计算

  • 如果几个指标之间有明确的计算关系(比如:第二产业产值、地区生产总值、第二产业产值占地区生产总值比重),任何一个缺失都可以用另外两个计算补齐。
  • 如果公报中连续统计了几年的地区生产总值,后来突然改为统计人均地区生产总值,同时报告了人口数据。可以验证一下地区生产总值(是否大致)=人均地区生产总值×人口。一般来说数值会有出入,但当数据实在找不到时,不要嫌麻烦,可以作为一种补齐的参考。
  • 建议将原始数据(含有缺失值的数据)保存一下,补齐后的数据另存。因为补齐的方式有好多种,如果实证结果不理想,想从补齐数据开始重做,这样会比较方便。

三、取中间值

  • 该方法适合于:某项指标下,前后年份均有数值,中间年份缺失。
  • 用线性插值法补齐(年份距离比较近,可以将其变化近似看作线性以简化计算)。比如图1的专利缺失数据可以取均值,然后取整数。


    图1.png

四、类似样本填补

  1. 找该指标数据类似的其他地级市来对缺失个体进行补齐。
  • 假设想要补齐的原始数据为“地级市2002-2016年的专利申请授权数”,比较该指标下的非缺失值序列,选择非缺失年份下专利申请授权数大致相同或者有趋势关系的地级市,用它的数据直接填补或者作简单的倍数计算填补缺失的数据。
  1. 有时会找经济发展类似的其它地级市的数据进行填充,基于经济发展与专利申请授权数具有正向线性关系的假设(不太严谨)。如果用基于该假设补齐的数据做“经济发展与专利授权数关系”的研究,就是不合理的。
  • 假设某个地市级的2002-2016年专利申请数据几乎全部缺失,此时无法使用专利申请数来选取相似个体,可以用与“专利申请数”相关的其它经济变量(比如地区生产总值)作为标准,选取相似个体填补整行数据。

五、函数法

该方法一般适用于:单侧缺失(一般是较早年份缺失,最近年份的数据一般比较齐全)。

  1. 线性函数(excel里trend函数)。


    图2.png
  • 图2的 trend函数假定经济数据与时间存在相关关系(专利数据要取整)。构建函数时候应选择与缺失数据邻近年份的数据(认为经济数据的相关关系在时间上具有衰减性)。
  1. 非线性函数(excel散点图,加入非线性趋势线,根据公式计算缺失数据)。图3-图5以填补专利数据为例。


    图3
图4 图5 图6
  • 问题
    1.选取哪些年份的数据构建函数?
    选取不同时间区间计算出来的函数不同,计算的缺失值也会不同,可能要多试几次。
    2.按理说这种统计方法计算的缺失值可靠性要高一些,但是实际中发现这种方式计算出来的缺失值不符合变化趋势,甚至会出现负值。
    3.以上缺失值处理都是在excel中完成的,手动操作、效率比较低。

六、插值法(Matlab)

有位老师告诉我三次样条插值的方法,计算出来的缺失值较为平滑,结果可能相对合理。去查了一下matlab可以实现,不过只能下次处理数据的时候再实际操作了。

Matlab插值函数为interp1,其调用格式为: yi= interp1(x,y,xi,'method')
其中x,y为插值点,yi为在被插值点xi处的插值结果;x,y为向量, 'method'表示采用的插值方法,MATLAB提供的插值方法有几种: 'method'是最邻近插值, 'linear'线性插值; 'spline'三次样条插值; 'cubic'立方插值。缺省时表示线性插值。
注意:所有的插值方法都要求x是单调的,并且xi不能够超过x的范围。
参考来源:http://blog.sciencenet.cn/blog-457143-679275.html

相关文章

  • 1.经济数据缺失值的简单处理(笔记)

    我的专业方向在写论文的时候用的大都是省级或者地级市的经济数据,一般这些数据都是从年鉴、国民经济社会发展统计公报、各...

  • 【python】数据清洗

    1.处理缺失值 判断是否含缺失值/统计缺失值 筛选所有含缺失值的表格 删除含缺失值的数据 用新值填充空值 对应值替...

  • 5.data_preprocessing_and_feature

    1.数据预处理与特征工程 1.1处理缺失值 1.1.1 直接删除缺失值多的样本和特征 1.1.2 计算缺失值与填充...

  • sklearn-3.预处理数据

    导入数据之后要做的是预处理,sklearn.preprocessing,主要分为几个方面。1.缺失值的处理缺失值我...

  • 数据预处理中缺失值的处理

    在做数据分类时,训练数据中总会存在一些缺失值,那么怎么处理缺失值有哪些方法呢? 最简单的方法就是删除缺失值所在的数...

  • Pandas4——Pandas高级处理

    目录: 缺失值处理/替换 数据离散化 合并 交叉表与透视表 分组与聚合 1. 缺失值处理 data.dropna(...

  • 数据的缺失值处理说明

    缺失值说明 缺失值产生的原因 缺失值处理 缺失值说明 缺失数据是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、...

  • 机器学习 - 特征工程

    数据处理 缺失值处理行数据缺失过多,用户区分度就会降低,列数据缺失过多会导致建模存在偏差fillna:填充缺失值;...

  • xgboost是如何处理缺失值的

    缺失值的处理办法: 删除法: 简单删除法:此方法将存在缺失值的数据条目(对象,元组,记录)进行删除 权重法:当缺失...

  • pandas笔记(Data Transformation)

    上一篇学习笔记学习了如何处理缺失值(数据清理),这一篇笔记继续学习pandas的数据处理:数据转换 Removin...

网友评论

    本文标题:1.经济数据缺失值的简单处理(笔记)

    本文链接:https://www.haomeiwen.com/subject/nxskkqtx.html