11月16-18日,我参加了在北大举办的社会科学数据管理研讨会。这个会议是由北京大学社会调查中心主办的,由国际两家知名社会科学数据管理专家――美国密歇根大学美国高校校际政治与社会学研究联盟(ICPSR)的Jared先生和英国数据资料库(UK Data Archive)的Veerle女士主讲,旨在提供社会科学数据管理的一般理论和方法。此次培训,我觉得不仅是收获了国际上一流的数据库管理技术和工具,更多的是对整个社会科学研究的数据使用理念生发了很多启示。
第一大启示,是要唤醒沉睡的数据。社会科学研究者也许都面临着一个共同的研究障碍,那就是可用的实证数据太少,特别是高质量的研究数据太少,而获得数据的成本又很高。但是,我们往往没有意识到另一个问题,那就是数据的共享程度太低,对现有数据挖掘利用不够。据ICPSR介绍,目前英美等发达国家的社会科学研究中,数据分享的研究者不到20%,我们国家这一数字更低,可供社会公开使用的研究型调查数据库屈指可数。导致这一问题的主要原因在于数据使用的机制问题。数据从某种程度上就是知识产权,社会科学与自然科学在这一点上非常相似,那就是谁最先获得一手数据,谁就占据了论文发表的先机,没有哪个研究机构或者个人有这样的“社会情怀”去为其他的研究者提供研究数据。但是,这一现状是有办法得到改进的,那就是建立数据的公共服务平台,类似于ICPSR和UKDA这样的数据管理平台。这些平台的任务就是以公共财政或社会捐赠资助设立的,管理研究者数据的专业第三方平台,我们如果有这样一个平台,哪怕只是达到10%的研究数据的共享,也会使得我国目前的社会科学实证研究迈上一个全新的台阶。国外的数据管理平台,将数据的管理看成是一个生命周期,数据在其存续的周期内,要发挥最大的效应。对于社会科学数据而言,大部分是数据获得的1-2年之内,研究的价值是最大的,而过了这个时期,数据的所有者并不太关注数据的维护使用,甚至时间更久远之后,数据就消失了,而如果将其交给数据管理平台,则可以让其他的研究者开发出更大的价值。这一平台是公共产品,应该由国家公共奖金来投入。我认为,相较于一个个具体的项目而言,通过数据平台的建设唤醒大量沉睡的数据,更为急迫而重大。
第二大启示,是要确立以用为先的数据管理思维。数据最终是要被使用的,但我们在数据使用的过得中,往往会遇到很多具体的问题。如数据指标的含义不清晰、某个数据指标的缺失、数据的匹配性、数据的兼容性等,这样的问题哪怕是在数据调查团队的内部也大量存在。其主要原因就在于,由于数据使用的相对封闭,研究者对于数据的使用和管理并未采取统一的标准,甚至可以说是没有标准。其结果是,使用者在数据分析过程中,花费大量的时间来整理有问题的数据,或者由于原始数据的某个错误,导致计算结果迥异。因此,我们在关注数据对于研究问题适用性的同时,还应关注数据使用上的基本面问题,也就是说如何让所有研究者都能够“正确”地使用数据。在这一点上,实际上国际上已经有很多成熟的方法和标准可参考,只不过我们要提高数据使用标准规范的意识。
第三大启示,就是要建设高质量的数据。我们既面临着数据可用数量少的问题,同时还面临着数据质量不高的问题。数据的质量很难评价,但从国外社会科学数据管理专家来看有两条标准“一是要逻辑自洽;二是要客观真实。”所谓逻辑自洽,就是数据要能够符合基本的逻辑,如没有工作的人,就不能有工作收入这一项指标,在调查过程中,就是要有跳转,这些问题看似简单,却很容易犯错,其根本原因就在于没有使用统一的数据管理规范;所谓客观真实,就是不能有对数据调查调查过程的人为干预。这些条件的满足,需要有相应的管理工具,如对数据逻辑的反复审核,对数据调查过程的控制和真实性监督标准等。高质量的数据当然会耗费更高的成本,但随着社会科学研究的日益国际化,研究对于高质量的数据需求越来越强。
要提升社会科学研究的数据使用效率,既要有进行数据调查的勇气和担当,也要把已有的数据充分地挖掘和利用好。使用现代数据管理方法,提高数据的共享性,提升调查数据的质量,是让现有的社会科学调查数据物尽其用的重要路径。