专家视点 首页 > 学术信息中心 > 专家视点

杨芷晴:统计调查的精度与费用


发布人:    审批人:    点击数:0    发布时间:2014-11-19


统计调查在各行各业中的重要作用早已形成共识。我国当代经济学家马寅初曾经指出,“学者不能离开统计而治学,政治家不能离开统计而施政,事业家不能离开统计而执业”。而统计对公民个人的行为方式也十分重要。美国著名科幻小说家威尔斯说,“对于追求效率的公民而言,统计思维总有一天会和读写能力一样重要”。如今,统计甚至成为了一项重要的生产因素。全球知名咨询公司麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”在当前的官方数据无法满足个性化需求的条件下,非官方的数据也因其规范性、科学性而广受关注并大量应用。国家统计局马建堂局长曾指出,规范的民间调查,应该是官方统计的重要的、有益的补充。统计调查事实上就是一门精度与费用的权衡。除了需要考虑抽样方案是否科学、样本是否具有代表性、指标的统计是否全面和准确等精度问题之外,调查工作的可实施性、数据获取的可行性等费用问题也应统筹考虑。

样本量选多少合适

 确定样本量需要综合考虑费用和精度。2006年6月,恐怖大亨扎卡维的死令时任美国总统的布什支持率起死回生,从之前的20%左右上升至37%。这个统计结果是根据美国国家广播公司和《华尔街日报》对1002名成年人进行的抽样调查所得出的。但,为什么抽样调查人数不是500人,也不是1500人,偏偏是1000人左右呢?即1002人的样本量是否能很好地反映总体情况?这是一个统计学基础问题。一般来说,在严格随机抽样的前提下,抽样误差随样本量的增加以几何级数递减。但是,样本量的数量大小并不能作为衡量一个调查准确与否的依据,这一点从国内外的其他调查可以看出。例如CGSS(中国综合社会调查)2006年的样本量约为10000户,SCF(美国消费金融调查)2007年之前25年的样本量为4000户,PSID(美国收入动态跟踪调查)2005年的样本量为5000户。

 但为什么布什支持率的调查最后却以访问1002人告终呢?事实上,调查工作人员并不是同一时间对1000人进行访问调查的。以盖洛普调查公司为例,他们通常都会利用隶属于5个不同呼叫中心的50名接受过训练的调查员进行调查。中央电脑系统会告诉这些调查员,打电话给谁,什么时候打过去。一名主管会跟踪他们的工作,清楚了解他们完成了多少访问,甚至知道被访者的男女比例是否正确,是否来自全国不同的地方。当主管知道1000人的访问任务即将完成时,他就会向调查员发出“停止”的讯号。正在进行的访问会继续下去,数据也会归入到整个调查中去。如果主管判断正确的话,那么他们最终得到的采访人数应该起码有1000人。其实无论是998人还是1002人,对结果的影响不会太大,但宁多勿少已是调查中的一条不成文的规条,因为在后来的计算中他们还会筛选掉一些数据。

另外,抽样方式也是影响样本量的重要因素。简单随机抽样估计总体比例确定样本量需要同时考虑估计量方差上限与估计量离散系数上限。分层随机抽样的样本量还受到各层样本量分配方式的影响。复杂抽样的样本量需要借助抽样设计效应才能计算。一般来说,抽样调查不可避免的会出现拒访、无回答的现象,样本量往往需要经过调整后才能满足实际调查的需要。

样本分配与权重

在实际操作中,样本分配和权重的概念较容易混淆。以西南财大的中国家庭金融调查项目(China Household Finance and Survey, 简称CHFS)为例,在城市地区,CHFS收集了各社区的平均住房价格信息,以此作为社区富裕程度的衡量指标。在此基础上,根据住房价格由高到低将各社区分成四个组,在住房价格最高的组分配50户样本;而在住房价格最低的组分配25个样本。对于富裕社区多分配样本,并不是给予富裕社区更大权重,而是为了保证以更大的可能性获得高收入的样本,进而能够更加准确的反映家庭收入与财富的分布。

在计算相关指标时,都根据抽样设计进行了权重调整。这一权重是根据抽样设计中,每户家庭被抽取的概率进行计算的。换言之,抽样时多投放富裕家庭样本,在计算中富裕家庭的相对重要性就减少,其所代表的家庭户数也就相应低于其他收入层次的家庭。以此类推,每个收入层次的家庭都有对应的权重,反映了其能够代表的全国家庭数量。

在完全随机抽样下,由于富裕家庭的比例很低,其被抽中的概率也很低。可以想象,如果数据中没有包含富裕家庭样本,是无论如何也不能正确反映总体的。但是采取了偏向富裕家庭的样本分配,就能够保证样本中包含相当部分富裕家庭,进而可以通过权重的调整来反映总体的实际情况。

采用记账数据还是回忆数据

当前,统计调查中的数据收集方式主要有日记账数据收集方式与回忆式问卷数据收集方式两种。目前并没有文献对二者的优劣进行系统论证研究。从目前的调查和统计实践来看,回忆性数据收集方法偏多,而日记账的方式更多地被政府统计部门所采用。以美国为例,消费者消费情况调查(CEX)以及有追踪调查“标杆”的美国收入动态跟踪调查(PSID),均采用了回忆式数据收集方式。而中国的大部分社会调查,如中国家庭动态跟踪调查(CFPS)、中国综合社会调查(CGSS)和中国健康与养老跟踪调查(CHARLS)同样采用了回忆式的数据收集方式。

精度及费用的折中

回到文中最开始提出的为什么是1000人的问题。事实上,稍加注意就会发现,目前国内外主要的调查公司,在进行调查的时候,都喜欢访问起码1000人。有统计资料显示,1000人的采样足够让调查的误差幅度保持在3%左右。而如果只访问500人的话,误差幅度会达到5%,结果的可信度也就没有那么高了。当然,误差幅度是与访问人数成反比的,访问人数越多,误差幅度就越小,但在实在操作中,很多时候并不值得这样做。在1000人的基础上再访问500人,误差幅度不会减少1个百分点,但花费却会高出很多。因此,1000人的抽样调查被认为是调查精度和费用之间的合理折中方案。







首页 | 期刊简介 | 本刊导读 | 新闻公告 | 电子版期刊 | 期刊订阅 | 英文期刊 | 推荐文献 | 我要投稿 | 联系我们