|
谢益辉:兼听则明,偏听则暗——客观看待统计数字
|
| 作者:谢益辉 |
发布时间:06-10-06 |
浏览次数:4692 |
[大 中 小] |
统计学可以成为研究社会、经济现象的最有力的工具,同时也可以成为歪曲事实,颠倒黑白的最方便的作弊手段。究其原因,我认为在于统计结果中隐藏了太多的黑箱(Black Box),我们可以主观选择统计结果的输出方式,这样就会导致信息的扭曲变形,从而对人们产生一些误导。
从严格意义上来讲,人是无法做到完全客观认识事物的。人的一切感知、思考都或多或少带有一定的主观性,利用这样的特点,我们就可以利用统计分析结果来达到想要的“效果”。如何避免那些“统计陷阱”,从根源上来说,就必须尽量做到客观认识统计结果。那么,又如何做到客观认识统计结果呢?唯一的办法就是从多个角度来审视统计结果(“兼听”)。而“统计陷阱”的实现,往往都是只从某一角度出发达到蒙蔽的目的。
下面通过一些示例来说明“统计陷阱是怎样炼成的”:
1、某保健品对某团委组织的试用中,发现,服用该保健品的团员们罹患脑血管病的概率比社会随机抽样人群罹患脑血管的概率要低40多倍。因此,认为该保健品对降低脑血管病有“显效”。
质疑:“40多倍”看起来是个很诱人的数字,表面上说明保健品效果非常好。然后,我们稍微动动脑筋,就会发现很多疑点,比如(1)这个倍数用的哪两个样本人群来作比较的?很有可能的情况就是,用青年人的使用样本与人群普遍样本比较,从而不具有可比性。但现在很多保健品玩的就是这一招。还有一种是把筛选样本,在患者中选取病情良好的服用保健品,然后与病情严重的样本比较。(2)这个倍数的基数是多大?这种可能性也是有的:社会随机抽样人群罹患脑血管的概率为0.0000004%,而服用该保健品的团员们罹患脑血管病的概率0.00000001%;提出这个质疑的意思也就是说,必须要给出服用该保健品的团员们罹患脑血管病的概率,否则仅仅给出一个经过处理的数字结果,从某种角度来说是没有意义的。 |
|
2、某地政府统计了该地的森林覆盖率,发现2001年度的覆盖率比1998年的覆盖率增加了3倍。
质疑:类似的,我们可以提问,倍数的基数是多大?如果说2001年种了4棵树,1998年种了1棵树,那么这个倍数也是没有意义的;其次,“森林覆盖率”如何定义?这两个年度的定义是否发生了改变?这种手法往往是偷换了比较前后的“森林覆盖率”的定义,例如,在1998年度的森林覆盖率统计不含小树林或灌木,但在2001年度加上了小树林和灌木。 |
|
3、某市民政局报告了2001年度结婚人数为12.1万对,离婚人数为3万对,并据此得出结论:离婚率为25%。
质疑:乍一看似乎有道理,但是,仔细推敲定义,离婚率是应该基于全部婚姻数来比较,而不是基于当年结婚数来比较。例如,对同性恋中爱滋病患的报道时,就经常用临床数字来代替实际统计报道。 |
|
4、某市统计生产总值时,考虑到黑市存在,就把黑市的贸易额也纳入到该市生产总值里面,这样就使地处内地的该市显得比许多沿海城市都要“富”。
质疑:当某个城市把黑市的数据加进去,与其他城市没有加黑市的数据进行比较是不合理的,它使二者不具有可比性。在统计某种“总量”时,统计口径往往是一个比较容易钻的空子。 |
|
5、在某一年计算中国城市竞争力排行榜时,某市排在了香港之后的第二位,比北京、上海排名更靠前。该市统计数据的人口基数是依据户口人数统计的,大约为170万人,但实际上该市长期居住人口为700万。
质疑:当今社会,动辄摆出一个“XX排行榜”,当我们看到这种排名是,首先要考虑的问题就是排名的指标是如何构建的?因为指标的合理与否直接关系到排名的意义。该城市将人口基数低报,直接后果就是导致人均水平都会升高,例如人均GDP、人均收入等等,显然,这种做法当然会提高该城市的“竞争力”。 |
|
6、某调查机构准备调查中国城市家庭的平均人数,事先按照随机抽样原则在不同小区、不同街道、不同号码选取了数千个家庭。安排调查员每天上班后就根据这些事先确定的随机抽取的家庭逐一进行调查记录,如果选定的家庭没有人,那么就访问隔壁,直到访问到家里有人的家庭为止。
质疑:虽然事先确定了随机抽样原则,但在实际中,大量双职工家庭在统计员采样的时候并不在家,这就使最终的统计结果偏大,因为能在那个时间接受调查的往往是大家庭。现在很多调查公司在这个环节上没能对统计员的工作进行有效的监控,事实上使调查统计数据偏颇。统计中的抽样调查,往往都是建立在随机的原则上的,如果调查受到外界的干扰,便会导致样本的代表性变差,最后调查统计出来的结果的可信度也就会大打折扣。 |
|
7、某新药要做动物实验,从笼子里随机抓取一组豚鼠注射一单位剂量,同样方法抓取第二组豚鼠注射两单位剂量,……,直到能确定某组有一半豚鼠致死,得出“致半死剂量50”。
质疑:同样的,这个实验也很容易在样本上出现统计漏洞,随机抓取过程本身是有偏向性的,那些灵敏的、更健康的豚鼠在开始往往不容易抓到,而随机抓到的往往是体质和反应更弱的豚鼠,这就使分组不均匀,并最终影响统计结果。 |
|
若人为故意想利用统计,那么统计作假很容易。举个例子(并非针对某家特定调查机构),采访对北京奥运会的支持率,可以通过如下任何方式来取得“积极”的结论:
1、缩小取样范围,在某部分特定人群中采样,然后说是对老百姓的随机采访。 2、事先动员,然后填答问卷或者表态。 3、选择数据,把不符合事先约定答案的调查删除掉。 4、设置不均匀的选择项,例如:“您对北京奥运的态度是:A、热烈拥护;B、十分拥护;C、基本拥护;D、完全反对”。然后统计出来的结果肯定是“拥护”的比例很高。
虽然有以上事例表明统计结果的种种缺陷,但是就统计学本身来说,它仍然是一门严谨的科学。例如,统计学的模型一般都会有比较严格的假设条件(从而导出统计结果),但这些条件在实际应用中未必能很好的满足,这也是统计结果有偏的原因之一。然而更常见的情况是玩弄指标,比如平均数、倍数等等;在统计学中,只有原始数据的信息量是最大的,数据处理不可避免会丢失一些信息,因此越是经过统计处理,数据的本来信息就丢失得越多,因此当我们看到凡是经过处理过的数据时,就应该多几分质疑,不能仅仅从单方面的结果来下结论,多考察一些方面,往往就能避免掉入“统计陷阱”。
|
|
|
| 相关附件:无 |
| 相关文章[统计误区]:无 |
| 下一篇:[06-10-07] SAS教程、资源下载 |
| 上一篇:[06-10-06] 回归分析:起源、理论以及应用概述(谢益辉) |
相关评论:
|
| 添加评论: |