专家视点 首页 > 学术信息中心 > 专家视点

【李唐】数据清洗与实证检验


发布人:    审批人:    点击数:0    发布时间:2015-11-08


    最近我和余凡老师一直在对2015年广东企业―员工匹配数据进行整理,在此基础上进行关于人力资本构成(健康状况、技能水平、教育程度)和全要素生产率的实证检验。经过2个多月的反复数据整理和实证检验,我们得出了一些较有意义的测算结果,并对数据清洗和实证检验获得了一些基于“一手感知”的宝贵经验。利用专家视点,想将部分实证研究经验向其他老师与同学分享。 
    第一,千万不要随意删除数据。在进行实证检验过程中,我们经常会选择“drop”命令,将不符合正常取值范围、出现空缺值的调查数据进行删除。这样的好处是,非常迅速的可以获得一个进行研究的数据样本,加快实证研究的工作进度。但是,这样的做法会存在一个无法规避的问题,即数据样本丢失过多、扰乱原有调查样本概率分布的问题。即对于570个企业样本而言,如果将核心解释变量、控制变量的异常值、缺失值等进行简单剔除之后,我们最终很有可能只能获得350个样本(基于不同问题数据样本量有差异)。这样,超过200个样本的丢失,最终使得进行实证研究的样本分布与全部样本所呈现的“真实”概率分布出现较大差异,实证关系甚至会出现方向性的偏差,至少也会对实证结果的稳健性造成影响。在具体做法中,大家可以综合考虑线性插值、趋势插值等方法,根据会计准则对很多数据进行补足。 
    第二,不要忘记“稳健性”的统计关系。这段时间和余老师所共同收获的第二个经验在于,实证研究必须要建立在稳健性的统计结果的基础上。根据现有文献的考虑,一个个汇入控制变量,并进行聚类调整和稳健性估计,考察我们所研究的核心解释变量是否与被解释变量之间存在稳健性的数据关系,这是十分重要的。很多时候,拿到一个数据,跑出一个简单的回归结果,就说“我干出来了”,这实在是一种缺乏科学精神的天真。 
    第三,反复试错,选择最优的计算方法。心态归零是十分重要的。关于微观调查数据,我们获得了调查经验,但是对于微观调查数据的实证研究经验,我们实际上是较为缺乏的。这2个多月,其实我们两个人反复在失败,有的时候心理压力几乎超过了阈值。时间紧张、任务有约束,但是确实有时候算不出来,这是非常郁闷的。但是,郁闷和紧张过后,我们总是回到现有文献之中,找寻针对不同问题实证研究的差异化方法,并最终尝试最优的计算方法。仅对人力资本构成这一个变量而言,我们两个就采用不同函数形式算了5次,全要素生产率更是采用数据包络分析、固定效应两种方法计算了10次,最终获得了针对人力资本研究的最优数据组合,并对企业家创新和其他领域研究的最优数据组合可能进行了完整记录。 
    第四,一定要尊重现有文献的研究成果。数据计算的关键,在于是否在现有文献基础上进行方法创新、理论创新或数据创新,而无论如何现有文献的研究进展是十分重要的。仅就人力资本构成一个变量而言,我们在选择与之匹配的企业绩效指标时,反复尝试过利润率、劳动生产率和全要素生产率,最终根据增长文献的指引,将被解释变量收敛到了全要素生产率,而且是针对本次横截面数据的某种特定的全要素生产率数据上。针对这个问题,企业规模指标控不控制、科技投入如何控制、选择其他怎样的控制变量,这些都以文献做基础进行了梳理。 
    第五,“小题精做”,具体问题研究一定要尝试获取具有因果效应的稳健性实证关系。昨晚吃饭的时候,我和余凡老师沟通:“本周最愉快的两件事,一个是将企业家创新的50几个变量最终清洗成了面板,另一个是对人力资本质量问题运用工具变量法得到了稳健性的因果关系”。我们还是学术界的年轻人,是年轻人就要在细微的选题中深耕而积累新知。对于人力资本这个小之又小的选题,我们这一次最终捅破了“因果效应分析”的窗户纸,将因果效应测度出来。这确实是自己学术研究基于协同创新的宝贵研究成果。而最终这个方法的攻克,与余老师按照规范文献分析方法构建了文献分析汇总表有很大关系,我根据文献分析汇总表中的相似论文,逐篇进行比对,最终才选择出了上述方法。 
    以上仅是一家之言,有不当之处请院长、同事和同学批评指正。 






首页 | 期刊简介 | 本刊导读 | 新闻公告 | 电子版期刊 | 期刊订阅 | 英文期刊 | 推荐文献 | 我要投稿 | 联系我们