人们在进行调查研究时,编造其中一部分或是全部数据的频率是多少呢?在过去几年中,几位备受瞩目的欺诈案件把人们的目光集中到了这个问题上来,但是它到底有多么普遍仍然是未知的。

2月25日,在华盛顿特区的一个会议上,两位著名的研究人员Michael Robbins和Noble Kuriakose提出一种用于检测调查中虚假数据的统计测试。当他们将其应用于来自各个国际调查的1000多个公开数据集时,一个令人担忧的情景出现了:约有1/5的调查未能通过测试,说明在这些调查中,捏造虚假数据的可能性很高。

但是,此项结果引起了由皮尤研究中心的争议,它是这些调查的主要资助者。而且,皮尤研究中心甚至还要求研究人员停止发表这项研究的结果。“皮尤的行为非常令人失望,”来自加州调查猴子(Survey Monkey)的研究人员 Kuriakose说,“这个问题不会就这样消失。”

具有讽刺意味的是,Robbins和Kuriakose就是在华盛顿的皮尤研究中心相识的,当时他们是那里的研究人员。“Michael在皮尤的国际调查部门研究方法论,我们的工作都与数据质量有关。”Kuriakose说。他们设计了一个早期版本的检测假数据的测试。

这个测试基于研究在调查中,仅仅是因为巧合,两名受试者会给出极度相似的答案的可能性。怎样才算是“极度相似”呢?在模拟了一次数据造假后,他们将85%设为阈值。例如,在一个有100题、询问了100人的调查中,应该只有少于5人会在其中的85题上有相同的答案。

85%阈值的规则并不适合所有类型的调查,Kuriakose指出:“例如,在顾客满意度调查中,每个问题的都会问到某特定产品或公司的某一方面,它们之间不是真正独立的,甚至没有意义上的差别。”这条规则也不适用于健康结果的调查,在这类调查中,健康人的回答大多一样。但是适用于发展中国家开展的大型民意调查——它涵盖了很多方面的问题,用来确定不同人群之间的不同点。“85%规则就适用于检测这样的调查中的虚假数据。”Kuriakose说。

Robbins离开皮尤后,他成为了阿拉伯晴雨表(Arab Barometer)项目的负责人,这个项目在整个阿拉伯世界中调查人们的意见。他用这个检测手法检查了自己的数据。在发展中国家开展人群调查工作需要采访人员和群众面对面地交谈,在危险的环境中一家一家地调查。所以,Robbins说,这就产生了“路边石(curbstoning)”这个不可避免的问题:为了避免危险,节省时间,采访者坐在路边编造出调查的结果——这些结果常常是重复的。

Robbins使用自己和Kuriakose开发的测试检测出了其中的虚假数据,后续的其他检测也确认了这些数据确实是编造的。这让他想知道,编造数据有多普遍?所以他再次与Kuriakose合作,升级了技术并将其应用于国际调查公开数据集。因为其中有几个例外,所以他们只测试了调查了1000人以上、至少有75个问题的调查数据。为了保守起见,他们也把95%数据通过测试的调查认定为没有作假。

结果令人十分担忧:在1008项调查中,这项测试认为其中17%的调查数据可能包含很多编造的数据。在富裕的西化国家进行的调查中,有5%的被认为造假,而那些在发展中国家的调查中有26%的造假了。

去年,Robbins和Kuriakose就在学术会议上展示了他们的结果,引起了皮尤的关注。“我们明白了这项研究的情况,并感到非常震惊。”皮尤研究中心调查部门的主任Courtney Kennedy说。皮尤研究中心已经进行了几百次国际调查了。

Kennedy说,皮尤研究中心正在使用新开发的测试来检验自己的数据。“确实,有一些数据被认为是虚假数据,”她说,“因此,我们更深层次地研究,当我们完成自查时,也会发现有一些具有严重数据问题的调查结果。”由于这个原因,Kennedy说:“ Robbins和Kuriakose的检测系统明显会将一些真实的数据判断为假造的数据。”

2015年11月,Kennedy和其他皮尤研究中心高级官员发给Kuriakose 和Robbins发了一封电子邮件(现在《科学》也获知了它的内容)。那时,这两人已经把他们的研究方法和结果写成论文,提交给了同行评议的国际官方统计协会的《统计学期刊(Statistical Journal)》,它是统计学领域中权威的杂志。“我们强烈建议你撤回论文,”电子邮件中写道:“因为我们认为这些分析是很不详细的,会在‘检测虚假数据’的标准上误导调查的供应方和合约方。”Kennedy认为这封邮件是“合适”的,因为“我们这个组织的名声要陷入危机,他们不能就这样随随便便地发表这样的声明。”

Kuriakose 和Robbins没有撤回论文。它在2015年12月审核通过并已经发表。

虽然2月25日的会议(与会者将其称为Datafab2016)原本是希望双方能互相妥协,从而改善调查研究的情况,但是双方都没有让步。除他们的论文之外,Kuriakose和Robbins又展示了皮尤研究中心的309项国际调查,如皮尤国际态度调查和其它几项著名的宗教信仰调查。其中有30%没有通过测试。

在轮到Kennedy发表意见时,她对测试的方法进行了抨击。例如,她指出,它没有考虑调查中问题的数量、受访者的数量和其它可以影响结果的因素。她也对85%阈值的规则提出了异议。她说:“我会根据调查中受访者的数量来选择不同的阈值。”用适用于特定调查的阈值来测试所有的调查,Kennedy说;“他们把事情做得太过头了。”现在也有人站在皮尤的那一边。

有些人在会议中看到了双方的优点。Kuriakose 和Robbins的方法没有高估数据的虚假度,“而是很可能低估了问题存在的真正范围。”伦敦大学的流行病学家Michael Spagat说。他研究过在战争地区,知名事件中数据造假的可能性。然而,Kennedy的反驳也给他留下了深刻的印象。“我认为皮尤的论文十分有意思,提出了一些很好的观点,”他说:“具体地说,就是没有判断虚假数据的硬性标准。”总的来说,Spagat仍然非常关心调查中的数据造假:“Kuriakose 和Robbins发现了一个巨大的问题,皮尤研究中心也无法解决这个问题。”

这次会议并没有什么成果,会议的协办者Steven Koczela说。他是MassINC Polling Group的主席,曾是美国国务院调查研究的领导。Kuriakose 和Robbins发现的问题“我认为是肯定存在的”,他说,“但是皮尤研究中心也发挥出了最高的水准。”

(下载iPhone或Android应用“经理人分享”,一个只为职业精英人群提供优质知识服务的分享平台。不做单纯的资讯推送,致力于成为你的私人智库。)

作者:John Bohannon 译者 FreemanZ
来源:译言网