抽样偏差

来源:百度文库 编辑:神马文学网 时间:2024/04/29 15:19:20
1936 年富兰克林·迪拉诺·罗斯福(Franklin Delano Roosevelt)与艾尔弗雷德·兰登(Alfred Landon)共同竞选美国总统。此时,美国失业人数高达九百万,在1929--1935这段期间实际收入下降了约1/3,经济正由大萧条中逐渐恢复回升。兰登竞选主题为“小政府”口号为“挥霍浪费的人必须离任”“我们应该专心致力于自己的事务”罗斯福竞选主题为“扩大内需”口号为“在我们能够平衡联邦政府的预算之前,必须先平衡美国人民的预算”。 绝大多数观察家认为罗斯福将毫不费力的获胜,而《文学文摘》(literary Digest)杂志根据大约240万人参加的一次民意测验预测,兰登会以57%对43%的优势获胜。《文学文摘》的显赫威望支持着它的预测,因为自1916年起,在历届总统选举中该杂志都能正确地预测出获胜的一方。实际的竞选结果是罗斯福以62%对38%的一边倒优势赢得了1936年的选举,连任总统。 
 
这是重要民意测验曾作出过的最大误差。接受民意测验的人数这么多,但《文学文摘》这么大的预测误差是怎么产生的呢?目前关于此问题的解释集中在取样策略方面。 
1、取样方法:邮寄1千万份问卷,回收420万份,但调查对象是从电话簿、汽车车主的登记资料以及选举人的登记名单中选取。在经济大萧条时期,电话和汽车并不像现在这样普遍,当时仅有1100 万人拥有住宅电话,但900万人失业,仅针对拥有汽车和电话的少数人进行调查并不具有代表性,但是这些名单比较容易得到。 
2、取样偏差(selection bias),取样中包含过多的富人,而该年贫富间选举倾向相距极大。那些富人支持共和党的候选人,那些未能被调查的低收入民众却大部分支持民主的罗斯福,导致调查结果失真。 取样有偏差时,再多的样本也没有用。
3、有回答或拒回答( non-response),或低回复率( response rate) 引起偏差。邮寄发出的调查问卷大约有1000万张,但只有少数的调查表被收回,有效回复率仅为23%。在收回的调查表中,兰登非常受欢迎。于是,该杂志预测兰登将赢得选举。以芝加哥为例,问卷寄给1/3 的登记选民,回收的20%的问卷,其中超过一半宣称将选兰登,但选举结果却是罗斯福拿到2/3的选票。对此,有的研究者认为回复此项调查的样本对象大都心存偏见,因为兰登的

1948年盖洛普及几家大型民调公司对当年的美国总统选举结果却做出了错误预测。民意调查结果显示杜威会以5%或15%的优势领先竞选连任的杜鲁门,但选举结果杜鲁门却以4.4%赢了杜威。学者分析这次选举预测失贩的原因,发现可能是:1、民意调查访问时间距投票日不够接近,没有现出杜鲁门的声势己有起色。2、采用的配额抽样偏向容易接受访问的群众,达不到统计随机取样的要求。3、没有评估不表态民众的可能投票倾向。4、杜鲁门的危机意识促使支持他的人踊跃投票,而杜威的支持者反之。 
此后运用抽样进行民意调查的技术与方法,历经各种研究与修正,数十年来在美国历次总统大选所做的民意调查的预测结果与大选结果几乎都完全吻合。在抽样时合理地使用随机原理取得佯本,其应用成效已深获肯定与重视。当前大多数应用统计不会像前面的例子错得那样厉害,但在需要考虑选择正确的样本时,还是要非常谨慎小心。 

――整理自(美)弗里德曼等著,魏宗舒等译,统计学,北京:中国统计出版社,1997 年P367-381.